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TABLA A.2 Distribución normal acumulativa (continuación) 


0 z 

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 
0.0 | .5000  .5040  .5080  .5120  .5160  .5199 .5239 .5279  .5319  .5359 
0.1 | .5398  .5438 .5478 .5517 .5557 .5596 .5636  .5675  .5714  .5753 
0.2 | .5793 .5832 .5871 .5910  .5948 .5987  .6026  .6064  .6103  .6141 
0.3 | .6179 .6217 .6255  .6293  .6331  .6368 .6406  .6443  .6480  .6517 
0.4 | .6554  .6591  .6628 .6664  .6700  .6736  .6772  .6808  .6844  .6879 
0.5 | .6915  .6950  .6985  .7019  .7054  .7088  .7123  .7157  .7190  .7224 
0.6 | .7257  .7291 .7324  .7357  .1389 ./1422  .1454  .7486  .7517  .7549 
0.7 | .7580 .7611  .7642  .7673  .77104  .1734  .T164  .T794  .7823  .7852 
0.8 | .7881  .7910  .7939  .7967  .7995  .8023 .8051  .8078  .8106  .8133 
0.9 | .8159 .8186  .8212 .8238 .8264  .8289 .8315  .8340  .8365  .8389 
1.0 | .8413  .8438  .8461  .8485  .8508  .8531  .8554  .8577  .8599  .8621 
1.1 .8643  .8665  .8686  .8708  .8729  .8749 .8770  .8790  .8810  .8830 
1.2 | .8849  .8869  .8888  .8907 .8925  .8944  .8962  .8980  .8997 .9015 
1.3 | .9032 .9049 .9066 .9082 .9099  .9115  .9131  .9147  .9162  .9177 
14  .9192 .9207 .9222 .9236  .9251  .9265 .9279 .9292  .9306  .9319 
1.5 .9332 .9345  .9357 .9370  .9382  .9394 9406  .9418 .9429  .9441 
1.6 | .9452  .9463  .9474 9484  .9495  .9505  .9515 .9525  .9535  .9545 
1.7 | .9554  .9564 .9573  .9582  .9591  .9599 .9608  .9616  .9625  .9633 
1.8 | .9641  .9649 .9656  .9664  .9671  .9678  .9686  .9693  .9699 .9706 
1.9 | .9713 .9719 .9726  .9732  .9738 .9744  .9750  .9756  .9761  .9767 
2.0 | .9772  .9778 .9783  .9788 .9793 .9798 .9803 .9808  .9812  .9817 
2.1 | .9821 .9826  .9830  .9834  .9838 .9842  .9846  .9850  .9854  .9857 
2.2 | .9861  .9864  .9868  .9871  .9875  .9878  .9881  .9884  .9887  .9890 
2.3 | .9893 .9896  .9898 .9901  .9904 .9906 .9909 .9911  .9913  .90916 
2.4 | .9918 6.9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934  .9936 
2.5 | .9938 .9940 .9941  .9943 9945  .9946  .9948  .9949  .9951  .9952 
2.6 | .9953 .9955  .9956  .9957 .9959 .9960  .9961  .9962  .9963  .9964 
2.7 | .9965  .9966  .9967 .9968 .9969 .9970  .9971  .9972  .9973  .9974 
2.8 | .9974 .9975  .9976 .9977 .9977 .9978 .9979 .9979 .9980  .9981 
2.9 | .9981  .9982 .9982 .9983  .9984  .9984  .9985  .9985  .9986  .9986 
3.0 | .9987 .9987  .9987  .9988 .9988 .9989  .9989  .9989  .9990  .9990 
3.1 | .9990 .9991 .9991 9991 .9992 .9992 .9992 .9992  .9993  .9993 
3.2 | .9993 6.9993 .9994 9994 9994 9994 9994 .9995  .9995  .9995 
3.3 | .9995 6.9995 .9995 .9996 .9996 .9996  .9996  .9996  .9996  .9997 
3.4 | .9997 6.9997 6.9997 .9997 .9997 .9997 .9997 .9997  .9997 .9998 
3.5 | .9998 6.9998 .9998 .9998 .9998 .9998 .9998  .9998  .9998  .9998 
3.6 | .9998 6.9998 .9999 .9999 .9999 .9999 .9999 .9999 9999  .9999 
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PREFACIO 


MOTIVACIÓN 


La idea de realizar este libro surgió de pláticas entre los profesores de estadística e ingeniería 
de la Escuela de Minas de Colorado respecto de nuestro curso de “Introducción a la estadís- 
tica para ingenieros”. Nuestros profesores de ingeniería pensaban que los estudiantes necesi- 
taban cubrir ampliamente el tema de propagación del error, así como un mayor énfasis en las 
habilidades en el ajuste de modelos. Los profesores de estadística creían que los estudiantes 
necesitaban estar más conscientes de algunos puntos importantes en la práctica de la estadís- 
tica, como la comprobación de los supuestos del modelo y del uso de la simulación. 

Mi punto de vista es que un libro introductorio a la estadística para ingenieros y cientí- 
ficos debe ofrecer todos estos temas con cierta profundidad. Además, debe ser lo suficiente- 
mente flexible para permitir diferentes elecciones del material que debe cubrirse, ya que hay 
muchas formas para diseñar un curso exitoso de introducción a la estadística. Finalmente, és- 
te debe proporcionar ejemplos que presenten ideas importantes en contextos reales. De acuer- 
do con lo anterior, el libro tiene las siguientes características: 


+ El libro es flexible en su presentación de probabilidad, ello permite a los profesores ele- 
gir la profundidad y extensión de la cobertura de este tema. 


+ El libro contiene muchos ejemplos en contexto real y con conjuntos de datos actuales; lo 
anterior motiva a los estudiantes y muestra la interrelación entre la industria y la investi- 
gación científica. 


*. El libro contiene muchos ejemplos con resultados obtenidos mediante computadora y 
ejercicios adecuados para resolverse con algún software estadístico. 


+ El libro proporciona una extensa cobertura de la propagación del error. 


+ El libro presenta una espléndida introducción a los métodos de simulación y a la estima- 
ción bootstrap, incluyendo aplicaciones para comprobar supuestos de normalidad, cálcu- 
lo de probabilidades, estimación del sesgo, cálculo de intervalos de confianza y pruebas 
de hipótesis. 


+ El libro proporciona una mayor cobertura en los procedimientos de diagnóstico del mo- 
delo lineal que la que se encuentra en la mayoría de los textos introductorios. Ésta inclu- 
ye material acerca del diagnóstico de la gráfica de los residuales, transformación de 
variables y principios de selección de variables en los modelos multivariados. 


+ El libro cubre los temas introductorios usuales, tales como estadística descriptiva, proba- 
bilidad, intervalos de confianza, pruebas de hipótesis, regresión lineal, experimentos fac- 
toriales y control estadístico de calidad. 


NIVEL MATEMÁTICO 


La mayor parte del libro será matemáticamente accesible a todas las personas que hayan estu- 
diado un semestre de cálculo. Las excepciones son la propagación multivariada del error, que 
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requiere derivadas parciales y las distribuciones de probabilidad conjunta, que requieren de in- 
tegración múltiple. Estos temas se los puede saltar en una primera lectura, si así lo desea. 


USO DE LA COMPUTADORA 


En los últimos 20 años el desarrollo de computadoras rápidas y baratas ha revolucionado la 
práctica de la estadística; efectivamente, ésta es una de las razones principales del porqué los 
métodos estadísticos han estado penetrando cada vez más en el trabajo científico. Los cientí- 
ficos y los ingenieros actuales no sólo deben ser expertos en el manejo de paquetes de soft- 
ware, sino que también deben contar con la habilidad para concluir a partir de los resultados 
computacionales y expresar estas conclusiones en palabras. De acuerdo con esto, el libro con- 
tiene ejercicios y ejemplos que requieren la interpretación, así como la generación de resulta- 
dos por computadora, especialmente en los capítulos de modelos lineales y experimentos 
factoriales. 

La disponibilidad actual de computadoras y de paquetes computacionales estadísticos 
también ha producido un importante beneficio en la educación, al hacer accesibles los méto- 
dos de simulación a los estudiantes de los cursos de introducción. La simulación hace que los 
principios fundamentales de la estadística revivan. El material de simulación que aquí se pre- 
senta está diseñado para reforzar algunas ideas estadísticas básicas e introducir a los estudian- 
tes en algunos de los usos de esta poderosa herramienta. 


CONTENIDO 


El capítulo 1 cubre el muestreo y la estadística descriptiva. La razón por la que los métodos 
estadísticos funcionan es que las muestras, cuando se toman en forma adecuada, semejan a la 
población. Por consiguiente, el capítulo 1 empieza con la descripción de algunas formas de 
tomar muestras válidas. En la segunda parte del capítulo se analiza la estadística descriptiva. 

El capítulo 2 trata la probabilidad. Existe una gran discrepancia en las preferencias de 
los profesores acerca de qué tanto y tan profundamente se debe cubrir este tema. Por lo tan- 
to, se ha tratado de hacer este capítulo lo más flexible posible. Los resultados principales se 
deducen de axiomas, demostrando la mayoría de ellos. Esto último permitirá a los profesores 
establecer un enfoque matemático riguroso. Por otra parte, he intentado mostrar cada resulta- 
do con uno o dos ejemplos, en donde sea posible un contexto científico que esté diseñado pa- 
ra presentar la intuición que se encuentra detrás del resultado. Por tanto, los profesores que 
prefieran un enfoque más informal se pueden dedicar a los ejemplos más que a las demostra- 
ciones. 

En el capítulo 3 se presenta el tema de la propagación del error, que algunas veces se 
llama “análisis del error” o, por los estadísticos, “el método delta”. La cobertura es más am- 
plia que en la mayoría de los textos, pero el tema es tan importante que pensé que era útil. La 
presentación está diseñada para permitir que los profesores ajusten la cantidad de temas que 
debe cubrir de acuerdo con las necesidades del curso. 

En el capítulo 4 se presentan muchas de las funciones de distribución de probabilidad 
comúnmente usadas en la práctica. También se tratan las gráficas de probabilidad y el teore- 
ma del límite central. En la última sección se presentan los métodos de simulación para eva- 
luar los supuestos de normalidad, cálculo de probabilidades y estimación de sesgo. 

Los capítulos 5 y 6 tratan los intervalos de confianza y las pruebas de hipótesis, respec- 
tivamente. Se hace énfasis en el enfoque del P-valor para las pruebas de hipótesis, pero tam- 
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bién se presentan pruebas de nivel-fijo y el cálculo de la potencia. El problema de pruebas 
múltiples se trata con cierta profundidad. También se presentan métodos de simulación para 
calcular intervalos de confianza y realizar pruebas de hipótesis. 

En el capítulo 7 se trata la correlación y la regresión lineal simple. He trabajado ardua- 
mente para enfatizar que los modelos lineales sólo son apropiados cuando la relación entre las 
variables es lineal. Este punto es muy importante ya que con frecuencia ingenieros y científi- 
cos lo ignoran (sin mencionar a los estadísticos). No es difícil encontrar en la bibliografía 
científica ajustes lineales y coeficientes de correlación resumidos en gráficas que presentan 
una curvatura evidente o en las cuales la pendiente de la recta se ve afectada mediante algu- 
nos puntos influyentes. Por tanto, en este capítulo se incluye una larga sección para compro- 
bar los supuestos del modelo y la transformación de variables. 

En el capítulo 8 se trata el tema de la regresión múltiple. Se hace un énfasis especial en 
los métodos de selección de modelo, ya que la selección de variables que se incluirán en el 
modelo constituye un paso esencial en muchos análisis de la vida real. También el tema de la 
confusión se trata cuidadosamente. 

En el capítulo 9 se analizan algunos diseños experimentales y los métodos que común- 
mente se aplican para analizar sus datos. Los métodos de análisis de varianza en uno y dos 
sentidos junto con el diseño de bloques completamente aleatorios y los diseños factoriales 2” 
se tratan con amplitud. 

En el capítulo 10 se presenta el tema del control de calidad estadístico, se analizan los 
diagramas CUSUM, la capacidad del proceso y se concluye con una breve descripción de la 
calidad con six-sigma. 


MATERIAL RECOMENDADO 


El líbro contiene suficiente material para un curso de un año. Si se requiriera un curso de un 
semestre, hay varias opciones. En nuestro curso de tres horas en la Escuela de Minas de Co- 
lorado cubrimos el total de los primeros cuatro capítulos, excepto las distribuciones conjun- 
tas, la exponencial, la gamma y de Weibull. Después se cubren los temas de intervalos de 
confianza y las pruebas de hipótesis en los capítulos 5 y 6, tocando rápidamente los métodos 
de dos muestras y los cálculos de potencia y se omiten los métodos de distribución libre y las 
pruebas de Ji cuadrada y F. Terminamos cubriendo todo el material posible, que el tiempo res- 
tante permita, sobre correlación y regresión lineal simple del capítulo 7. 

Se puede planear un curso con un sentido diferente que incluya más material de proba- 
bilidad, invirtiendo más tiempo en los métodos de dos muestras y de potencia y reduciendo 
la cobertura de la propagación del error, simulación o regresión. Hay muchas otras opciones; 
por ejemplo, se puede elegir incluir material de experimentos factoriales en lugar de algunos 
de los temas anteriores. En el manual del profesor que está disponible en el centro de apren- 
dizaje en línea (Online Learning Center) en www.mhhe.com/navidi se puede encontrar una 
variedad de enfoques y duración de cursos. 
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colegas, que impartieron clases y estudiantes que estudiaron en borradores del manuscrito en- 
contraron muchos errores y me hicieron sugerencias muy valiosas. En particular, Barbara 
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ayuda y apoyo durante todo el tiempo; asimismo, Melissa Laeser encontró muchos conjuntos 
de datos interesantes en fuentes publicadas. Mike Colagrosso, de la Escuela de Minas de Co- 
lorado, desarrolló algunos applets excelentes, así como Chris Boisclair y el equipo en siste- 
mas de enlace. Jessica Kohlschmidt, de la Universidad Estatal de Ohio, desarrolló diapositivas 
en PowerPoint para complementar el texto y Jackie Miller, también de la Universidad Estatal 
de Ohio, encontró muchos errores en todo el manuscrito e hizo valiosas sugerencias para me- 
jorarlo. 

El personal de McGraw-Hill fue muy capaz y de gran apoyo. La gerente del proyecto, 
Peggy Selle, siempre fue paciente y cooperadora. La correctora del manuscrito, Lucy Mullins, 
también merece mi agradecimiento. La orientación de los editores de desarrollo, Maja Lorko- 
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Características clave 


Resumen del contenido 


Este libro permite cubrir el material de una forma 
flexible ya que hay muchas maneras de diseñar un 
curso exitoso de introducción a la estadística. 


Cobertura flexible de probabilidad 

dirigida a las diferentes necesidades de los cur- 
sos. Permite el enfoque matemático riguroso, 
los principales resultados son deducidos de 
axiomas al proporcionar demostraciones en la 
mayoría de ellos. Por otra parte, cada resultado 
se muestra con uno o dos ejemplos para moti- 
var intuitivamente la comprensión. Los profeso- 
res que prefieran un enfoque más informal 
pueden, por tanto, dedicarse a los ejemplos en 
lugar de las demostraciones y omitir las seccio- 
nes opcionales. 


Cobertura extensa de propagación del error, 
algunas veces se llama “análisis de errores” o 
“el método delta”, se trata en un capítulo ex- 
clusivo del tema. La cobertura es más minuciosa 
que en la mayoría de los textos. El formato es 
flexible con el propósito de que la cantidad del 
material se adapte a las necesidades del curso. 


Una sólida introducción a los métodos de 
simulación y a la estimación bootstrap 

se presenta en las secciones finales de los 
capítulos 4, 5 y 6. 


Cobertura extensa de los procedimientos 

de diagnóstico del modelo lineal 

en el capítulo 7, se incluye una gran sección de 
la comprobación de supuestos del modelo y de 
la transformación de variables. El capítulo enfa- 
tiza que los modelos lineales sólo son apropia- 
dos cuando la relación entre las variables es li- 
neal. Este punto es el más importante, ya que 
con frecuencia se ignora en la práctica de inge- 
nieros y científicos (sin mencionar a los estadís- 
ticos). 


Capítulo 1 

Muestreo y estadística descriptiva 1 

Capítulo 2 

Probabilidad 50 

2.1 Ideas básicas 50 

2.2 Métodos de conteo (opcional) 62 

2.3 Probabilidad condicional e independencia 69 

2.4 Variables aleatorias 88 

2.5 Funciones lineales de variables aleatorias 111 

2.6 Variables aleatorias con distribución conjunta (opcional) 120 
Capítulo 3 

Propagación de errores 157 

3.1 Error de medición 157 

3.2 Combinaciones lineales de las mediciones 163 

3.3  Incertidumbres para funciones de una medición 173 

3.4 Incertidumbres para funciones de varias mediciones 179 
Capítulo 4 

Distribuciones comúnmente usadas 192 

4.11 Simulación 281 


+ Uso de la simulación para calcular una probabilidad 
+ Cálculo de medias y varianzas 
+ Usos de la simulación en an: 


is de confiabilidad 
+ Uso de la simulación para calcular sesgamiento 
+ La estimación autosuficiente 

Capítulo 5 

Intervalos de confianza 300 


5.8 Uso de simulación para construir intervalos de confianza 351 
+ Intervalos de confianza usando estimación bootstrap 
+ Uso de simulación para evaluar intervalos de confianza 

Capítulo 6 

Pruebas de hipótesis 368 


6.15 Uso de la simulación para realizar pruebas de hipótesis 462 
+ Pruebas de hipótesis con intervalos de confianza de estimación bootstrap 
+ Pruebas aleatorias 
+ Uso de simulación para calcular la potencia 

Capítulo 7 

Correlación y regresión lineal simple 475 


7.4 Comprobación de supuestos y transformación de datos 527 
+ La gráfica de los residuos contra valores ajustados 
+ Transformación de variables 
+ Determinación de la transformación que se aplicará 
+ Las transformaciones no siempre funcionan 
+ Las gráficas de los residuales con sólo pocos puntos pueden ser difíciles de interpretar 
+ Puntos atípicos e influyentes 
+ Otros métodos para transformar variables 
+ Pruebas de independencia y normalidad 
+ Modelos empíricos y leyes físicas 


Capítulo 8 

Regresión múltiple 556 
Capítulo 9 

Experimentos factoriales 623 
Capítulo 10 


Control estadístico de calidad 723 


Características clave 


El artículo “Virgin Versus Recycled Wafers for Furnace Qualification: Is the Expense 
Justified?” (V. Czitrom y J. Reece, en Statistical Case Studies for Industrial Process Impro- E 
vement, ASA y SIAM, 1997:87-104) describe un proceso para el crecimiento de una capa del- 10) nj u n to S e ato S 
gada de dióxido de silicio sobre placas de silicio que se usan en la fabricación de semicon- 
ductores. La tabla 1.6 presenta las mediciones del espesor, en angstroms (A), de la capa de d | d | 
óxido para 24 placas. Se hicieron nueve mediciones en cada placa. Las placas se fabricaron e m u n O re a 


en dos corridas distintas, con 12 placas por cada corrida. 


Con un enfoque fresco del tema, el autor usa da- 
TABLA 1.6 Espesor de las capas de óxido de silicio en placas de silicio tos del mundo real actuales para motivar a los 
estudiantes mostrando una conexión con la in- 


Placa Espesor (A) 
Corrida 11 91.6 882 820 982 dustria y la investigación. 
2 92.0 89.9 87.9 92.8 
El 87.2 88.1 90.1 91.9 
4 92.7 91.7 89.3 95.5 
5 90.6 93.1 88.9 92.5 
6 93.3 95.7 90.9 100.3 
7 88.0 92.4 88.7 92.9 
8 90.7 95.8 91.7 97.9 
9 90.4 92.0 90.5 95.2 
10 89.3 90.1 91,3 92.7 
1 93.4 92.2 89. 
12 775 914 90.422. El artículo “Seismic Hazard in Greece Based on Different Strong Ground Motion Parameters” (S. Koutrakis, G. Karakaisis y 
a cols., en Journal of Earthquake Engineering, 2002:75-109) presenta un estudio de episodios sísmicos en Grecia durante 1978- 
Comida 2/1 EE 90.9  82%É 1997. Es deinterés la duración de los “fuertes movimientos de tierra”, que es el tiempo en que la aceleración de la tierra exce- 
3 S E e So de un valor específico. En cada episodio las mediciones de la duración de temblores fuertes de tierra se hicieron en una o más 
4 879 922 90. ubicaciones. La tabla SE22 de la página 618 presenta cada uno de 121 temblores medidos, los datos con el tiempo de duración 
5 90.0 97.9 92. y (en segundos) durante los cuales la aceleración de la tierra excedió el doble de la aceleración de la gravedad. La magnitud m 
6 940 910 92 del sismo, la distancia d (en km) de la medición desde el epicentro, y los dos indicadores del tipo de suelo s, y s», definidos de 
7 90.3 915 89. la siguiente manera: s, = 1 si el suelo consta de depósitos aluviales blandos, s, = O de otra manera, y s¿= 1 si el suelo con 
8 89.6 89.6 904 ta de rocas terciarias o más > = 0 de otra manera. Los casos donde tanto s, = 0 como s,= 0 corresponden a condic 
9 910 914 924 nes intermedias del suelo. El artículo presenta mediciones repetidas en algunas ubicaciones que no se incluyen aquí. 
10 96.1 102.5 102. 
11 89.0 88.5 87. 
12 90.8 92.1 91.1 TABLA SE22 Datos para el ejercicio 22 
y m dos 5: ds S 
. . z 8.82 6.4 6 0 0 15 0 0 
Las 12 placas en cada corrida eran de varios tipos y se procesj 4.08 52 31 1 0 128 1 0 
ciones en el horno. El propósito en la recopilación de datos fue deter 15.90 6.9 33 0 0 13 0 0 
capa de óxido se afectaba ya sea por el tipo de placa o por la posiciór| 6.04 5.8 6 0 0 19 1 0 
éste fue un experimento factorial, con los factores, tipo de placa y po 0.15 4 5d 12 1 0 68 l 0 
mo resultado el espesor de la capa de óxido, El experimento se disel AA e $ Se : E ds ó e 
se supuso ninguna diferencia sistemática entre las capas de una corri 413 51 21 0 0 18 1 0 
so en el análisis fue construir un diagrama de caja para los datos de 0.02 5.3 11 0 1 14 0 1 
pósito de ayudar a determinar si esta condición se satisfacía realme] 2.14 45 22 1 0 15 0 0 
observaciones se debía eliminar. Los resultados se presentan en la figl 4.41 5.2 49 0 1 13 0 0 
17.19 5.9 1 0 0 1 0 0 
5.14 5.5 20 0 1 6 0 1 
0.05 4.9 22 0 0 21 1 0 
20.00 5.8 34 1 0 20 l 0 
12.04 6.1 44 0 0 39 1 0 
0.87 5.0 16 0 0 44 1 0 
0.62 4.8 6 1 0 2 1 0 
8.10 5.4 21 1 0 14 1 0 
1.30 5.8 16 1 0 5 1 0 
11.92 5.6 15 1 0 12 1 0 
3.93 57 50 1 0 28 1 0 
2.00 5.4 27 1 0 35 0 0 
0.43 5.4 30 0 1 32 Ñ 0 
14.22 6.5 90 1 0 61 0 1 
0.06 6.5 8 0 0 9 0 0 
1.48 32 22 0 0 9 0 0 
3.27 5.1 29 0 0 22 0 0 
6.36 5.2 15 0 0 8 0 0 
0.18 5.0 19 0 0 6 0 0 
0.31 4.5 5 0 0 13 0 1 
1.90 4.7 14 0 0 17 0 0 
0.29 4.7 4 1 0 5 0 1 
6.26 6.3 9 0 1 3 1 0 
4 5.4 4 0 1 1 1 0 
2.32 5.4 4 1 0 El 1 0 
1.49 5.0 4 0 1 1 1 0 
2.85 5.4 78 0 1 104 0 0 
0.01 6.4 105 0 1 51 LL 0 
9.34 6.6 82 0 1 65 1 0 
10.47 6.6 
Con los datos de la tabla SE22 construya un modelo lineal para pronosticar la duración y a partir de alguna o de todas las 
variables m, d, s, y sz. Asegúrese de considerar las transformaciones de las variables, así como las potencias de y las interac- 
ciones entre las variables independientes. Describa sus pasos para construir su modelo. Realice una gráfica de residuos contra 
valores ajustados para comprobar que su modelo satisface los supuestos necesarios. Además, observe que los datos se presen 
tan en orden cronológico, al leer hacia abajo en las columnas. Realice una gráfica para determinar si se debe incluir al tiempo 
como una variable independiente. 


Características clave 


Resultados de 
computadora 


El libro contiene ejercicios y ejem- 
plos que requieren la interpreta- 
ción y la generación de resultados 
por medio de computadora. 


12. El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para una media poblacional y. 


One-Sample Z: X 


Test of mu = 73.5 vs not = 73.5 
The assumed standard deviation = 2.3634 


Variable N Mean  StDev SE Mean 95% CI Z P 
Xx 145 73.2461 2.3634 0.1963 (72.8614, 73.6308) -1.29 0.196 


a) ¿Es ésta una prueba de una cola o de dos colas? 

b) ¿Cuál es la hipótesis nula? 

Cc) ¿Cuál es el P-valor? 

d) Utilice el resultado y una tabla adecuada para calcular el P-valor para la prueba de H,: jr = 73.6 contra H¡: 1 < 73.6 


e) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 99% para p. 


7. En un estudio de la función pulmonar de niños, el volumen de aire exhalado por la fuerza en un segundo se llama FEV. (FEV, 


es el volumen de expiración forzada en un segundo.) Se hicieron mediciones en un grupo de niños cada año durante dos años. 
Se ajustó a un modelo lineal para pronosticar los FEV; de estos años como una función del FEV, (en litros) del último año, el 
sexo del niño (0 = masculino, 1 = femenino), la estatura del niño (en m), y la presión atmosférica ambiental (en mm). El si- 
guiente resultado de MINITAB presenta los resultados de ajuste del modelo 


FEV, = B, + Bi, Último FEV, + f, Sexo + f, Estatura + fi, Presión + € 


The regression equation is 
FEV1 = -0.219 + 0.779 Last FEV - 0.108 Gender + 1.354 Height - 0.00134 Pressure 


Predictor Coef SE Coef F P 
Constant -0.21947 0.4503 -0.49 0.627 
Last FEV 0.779 0.04909 15.87 0.000 
Gender -0.10827 0.0352 -3.08 0.002 
Height 1.3536 0.2880 4.70 0.000 
Pressure -0.0013431 0.0004722 -2.84 0.005 
S = 0.22039 R=Sq::>:93..5% R-Sqladj) = 93.3% 


Analysis of Variance 


Source DF SS MS E P 
Regression 4 111.31 27.826 572.89 0.000 
Residual Error 160 7.7716 0.048572 

Total 164 119.08 


a) Pronostique el FEV, para un niño con estatura de 1.4 m, si la medida se tomó a presión de 730 mm y la medición del últi- 
mo año fue 2.113 L. 

b) Si dos niñas difieren en estatura por 5 cm, ¿qué tanto esperaría que sus mediciones de FEV, difieran; los otros conceptos 
siguen igual? 

c) Se estima que el término constante f, es negativo, pero el FEV, debe ser siempre positivo. ¿Algo está erróneo? Explique. 

d) El responsable de este experimento quiere rediseñar el algoritmo que registra las mediciones electrónicamente con el fin de 
ajustar la presión atmosférica automáticamente. Se fija un barómetro al dispositivo para registrar la presión. Utilice el re- 
sultado anterior de MINITAB para determinar cómo calcular un valor FEV, ajustado como función del valor FEV, medi- 
do y de la presión. 


Complementos de aprendizaje 
para los estudiantes 


- FE 
a o 


CD-ROM con 
recursos para los 
estudiantes 


Empaquetado gratis con cada libro nue- 
vo, este CD proporciona todos los conjun- 
tos de datos del texto, así como applets 
basados en el contenido del texto para 
reforzar un entendimiento visual de la 
estadística. 


Tre aptas 


A ll rs 


TOA 


X 


rm? mein 


+ Todos los conjuntos de datos se 
pueden descargar en diferentes for- 
matos: 

e ASCII delimitado con comas 

e ASCII delimitado con tabuladores 
e MINITAB 

e Excel A BI CV PU AIN y 
+ SAS 2. ¿o dr, ale patea > amd, el 
e SPSS 
e TI-89 


dl AAA 
Metad E Cambios eve ds [EN > E, GN de cos da 


Central Limit Theorem Simulation 


Mare to usa the appiet 


+ Applets de Java, creados específica- 
mente para los cálculos de este curso, 
proporcionan ejercicios interactivos 
basados en el contenido del texto, lo 
que permite a los estudiantes modifi- 
car las variables y explorar escenarios 
de “¿Qué sucede si?”. También se in- 
cluyen en la suite de applet los 
applets de simulación, que refuer- 
zan la excelente cobertura de texto de 


los métodos de simulación. Los applets ' 

permiten que los estudiantes vean los > 

ejemplos de simulación del texto en 

acción y que modifiquen los paráme- 

tros para una mayor exploración. - anal Ma. L 


+ Una guía a la simulación con MINI- A A 
TAB preparada por el autor donde se pa | m 
. z . ” A 

describe cómo se pueden implementar ses | | 5 LE ' 
en MINITAB los ejemplos de simula- f.- ' 7 Y - j 
57 | ” A”. 1 
ción en el texto. e | E > e ] 
na) e a ] 
. A .. o j 

+ Herramientas y recursos, que inclu- ds In 6 AA A 

* Ñ * * $ ». ,..,|¡ +» a 


ye un vínculo al centro de aprendizaje 
del libro, ofrece en línea recursos para 
el profesor y el estudiante en 
www.mhhe.com/navidi. 


te 2. ms eutet ne Wer igue der le te ra e a Uh 


4 1 eorás beat ett th las . las dret e 


Materiales de apoyo 


Esta obra cuenta con interesantes 
complementos que fortalecen los procesos de 
enseñanza-aprendizaje, así como la evaluación 
de éstos. Mismos que se otorgan a profesores 
que adopten este texto para sus cursos. 

Para obtener más información y conocer la 
política de entrega de estos materiales, 
contacte a su representante de McGraw-Hill o 
envíe un correo electrónico a 
marketingheEmcgraw-hill.com 


TABLA A.2 Distribución normal acumulativa (tabla z) 


0 

z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 
-3.6 | .0002 .0002 .0001  .0001  .0001  .0001  .0001  .0001  .0001  .0001 
-3.5 | .0002 .0002 .0002 .0002 .0002 .0002  .0002 .0002  .0002  .0002 
-3.4 | .0003  .0003 .0003 .0003  .0003 .0003  .0003 .0003  .0003  .0002 
-3.3 | .0005  .0005 .0005  .0004  .0004 .0004  .0004  .0004  .0004  .0003 
-3.2 | .0007 .0007 .0006  .0006  .0006  .0006  .0006  .0005  .0005  .0005 
-3.1 | .0010 .0009 .0009 .0009  .0008 .0008  .0008  .0008  .0007  .0007 
-3.0 | .0013 .0013 .0013 .0012 .0012 .0011  .0011  .0011  .0010  .0010 
-2.9 | .0019 .0018 .0018 .0017 .0016  .0016  .0015  .0015  .0014  .0014 
-2.8 | .0026 .0025 .0024 .0023 .0023 .0022 .0021 .0021  .0020  .0019 
-2.7 | .0035 .0034 .0033 .0032 .0031  .0030  .0029 .0028  .0027  .0026 
-2.6 | .0047 .0045  .0044 .0043  .0041  .0040  .0039 .0038  .0037  .0036 
-2.5 | .0062  .0060  .0059 .0057 .0055  .0054  .0052  .0051  .0049  .0048 
-2.4 | .0082 .0080  .0078 .0075  .0073  .0071  .0069  .0068  .0066  .0064 
-2.3 | .0107 .0104 .0102 .0099 .0096 .0094  .0091 .0089  .0087  .0084 
-2.2 | .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116  .0113  .0110 
-2.1 | .0179 .0174 .0170 .0166  .0162 .0158 .0154  .0150  .0146  .0143 
-2.0 | .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192  .0188  .0183 
-1.9 | .0287 .0281 .0274 .0268  .0262  .0256 .0250 .0244 .0239  .0233 
-1.8 | .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301  .0294 
1.7 | .0446  .0436  .0427  .0418  .0409 .0401  .0392  .0384  .0375  .0367 
-1.6 | .0548 .0537 .0526  .0516  .0505  .0495  .0485  .0475  .0465  .0455 
1.5 | .0668 .0655  .0643  .0630  .0618  .0606  .0594  .0582  .0571  .0559 
-1.4 | .0808  .0793  .0778  .0764  .0749  .0735  .0721  .0708  .0694  .0681 
-1.3 | .0968 .0951  .0934  .0918 .0901  .0885  .0869  .0853  .0838  .0823 
-1.2 | .1151.  .1131.  .1112  .1093 1075  .1056  .1038  .1020  .1003  .0985 
1.1 | .1357 .1335 .1314 .1292  .1271 .1251 .1230 .1210 .1190  .1170 
-1.0 | .1587 .1562 .1539  .1515 1492  .1469  .1446 .1423  .1401  .1379 
-0.9 | .1841  .1814 .1788 .1762 .1736  .1711 .1685  .1660  .1635  .1611 
-0.8 | 2119 .2090 .2061  .2033 .2005 .1977 .1949 .192 .1894  .1867 
-0.7 | 2420  .2389 .2358 .2327 .2296 .2266 .2236 .2206  .2177  .2148 
0.6 | 2743  .2709 .2676 .2643  .2611 .2578 .2546 .2514 .2483  .2451 
-0.5 | .3085  .3050 .3015 .2981  .2946 .2912 .2877 .2843  .2810  .2776 
0.4 | .3446  .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156  .3121 
-0.3 | .3821  .3783 .3745  .3707 .3669 .3632 .3594 .3557  .3520  .3483 
0.2 | .4207 .4168 .4129 .4090 .4052 .4013 .3974 .3936  .3897  .3859 
-0.1 | .4602. .4562 4522 .4483 .4443 .4404 .4364 4325 .4286  .4247 
0.0 | .5000  .4960 .4920 .4880 .4840 .4801  .4761  .4721  .4681  .4641 


TABLA A.3 Puntos porcentuales superiores para la distribución t de Student 


0 t 
Q 

v 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.001 0.0005 
1 | 0.325 1.000 3.078 6.314 12.706 31.821 63.657 318.309 636.619 
2 | 0.289 0.816 1.886 2.920 4.303 6.965 9.925 22,327 31.599 
3 | 0.277 0.765 1.638 2.353 3.182 4.541 5.841 10.215 12,924 
4 | 0.271 0.741 1.533 2.132 2.176 3.747 4.604 JA 173 8.610 
5 | 0.267 0.727 1.476 2.015 2ITL 3.365 4.032 5.893 6.869 
6 | 0.265 0.718 1.440 1.943 2.447 3.143 3.707 5.208 5.959 
7 | 0.263 0.711 1.415 1.895 2.365 2.998 3.499 4.785 5.408 
8 | 0.262 0.706 1.397 1.860 2.306 2.896 3.355 4.501 5.041 
9 | 0.261 0.703 1.383 1.833 2.262 2.821 3.250 4.297 4.781 
10 | 0.260 0.700 1.372 1.812 2.228 2.764 3.169 4.144 4.587 
11 | 0.260 0.697 1.363 1.796 2.201 2.718 3.106 4.025 4.437 
12 | 0.259 0.695 1.356 1.782 2.179 2.681 3.055 3.930 4.318 
13 | 0.259 0.694 1.350 1.771 2.160 2.650 3.012 3.852 4.221 
14 | 0.258 0.692 1.345 1.761 2.145 2.624 2.977 3.787 4.140 
15 | 0.258 0.691 1.341 1.753 2.131 2.602 2.947 3.733 4.073 
16 | 0.258 0.690 1.337 1.746 2.120 2.583 2.921 3.686 4.015 
17 | 0.257 0.689 1.333 1.740 2.110 2.567 2.898 3.646 3.965 
18 | 0.257 0.688 1.330 1.734 2.101 2:32 2.878 3.610 3.922 
19 | 0.257 0.688 1.328 1.729 2.093 2.539 2.861 3.579 3.883 
20 | 0.257 0.687 1.325 1.725 2.086 2.528 2.845 3,392 3.850 
21 | 0.257 0.686 1.323 1.721 2.080 2.518 2.831 3.527 3.819 
22 | 0.256 0.686 1.321 1.717 2.074 2.508 2.819 3.505 3.792 
23 | 0.256 0.685 1.319 1.714 2.069 2.500 2.807 3.485 3.768 
24 | 0.256 0.685 1.318 1.711 2.064 2.492 2.197 3.467 3.745 
25 | 0.2536 0.684 1.316 1.708 2.060 2.485 2.787 3.450 3.725 
26 | 0.256 0.684 1.315 1.706 2.056 2.479 2.779 3.435 3.707 
27 | 0.256 0.684 1.3314 1.703 2.052 2.473 2.171 3.421 3.690 
28 | 0.256 0.683 1.313 1.701 2.048 2.467 2.763 3.408 3.674 
29 | 0.2536 0.683 1.311 1.699 2.045 2.462 2.756 3.396 3.659 
30 | 0.2536 0.683 1.310 1.697 2.042 2.457 2.750 3.385 3.646 
35 | 0.255 0.682 1.306 1.690 2.030 2.438 2.724 3.340 3.591 
40 | 0.255 0.681 1.303 1.684 2.021 2.423 2.704 3.307 3.551 
60 | 0.254 0.679 1.2906 1.671 2.000 2.390 2.660 3:232 3.460 
120 | 0.254 0.677 1.289 1.658 1.980 2.358 2.617 3.160 3.373 
00 0.253 0.674 1.282 1.645 1.960 2.326 2.576 3.090 3.291 


Capítulo 


Muestreo y 
estadística descriptiva 


Introducción 


La recopilación y el análisis de datos son fundamentales en la ciencia e ingeniería. Al analizar 
los datos recopilados en experimentos, los científicos descubren los principios que gobiernan 
el mundo físico y los ingenieros aprenden cómo diseñar nuevos productos y procesos impor- 
tantes. Una dificultad muy importante que se presenta con los datos científicos es que éstos se 
encuentran sujetos a variaciones aleatorias o incertidumbre. Es decir, cuando se repiten las me- 
diciones científicas cada vez salen un poco diferentes. Lo anterior plantea un problema: ¿có- 
mo se pueden obtener conclusiones de los resultados de un experimento cuando éstos pueden 
ser diferentes? Para analizar esta pregunta, es esencial contar con cierto conocimiento estadís- 
tico. La estadística se dedica a la recopilación, el análisis y la interpretación de datos con in- 
certidumbre. Los métodos de la estadística permiten que los científicos e ingenieros diseñen 
experimentos válidos y obtengan conclusiones confiables a partir de datos obtenidos. 

Aunque nuestro interés en este libro es tratar con las aplicaciones de la estadística en la 
ciencia y en la ingeniería, cabe mencionar que el análisis y la interpretación de datos son ca- 
da vez más importantes en todos los aspectos de la vida moderna. Para bien o para mal, se es- 
tán recopilando enormes cantidades de datos con nuestras opiniones y estilos de vida, con 
fines que van desde la creación de campañas de mercadotecnia más eficaces hasta el desarro- 
llo de políticas sociales diseñadas para mejorar nuestro estilo de vida. Casi a diario, los artícu- 
los que se publican en los periódicos pretenden explicar las tendencias sociales o económicas 
a través del análisis de datos. Por tanto, un conocimiento básico de estadística es necesario no 
sólo para ser un científico o ingeniero eficiente, sino también para ser un miembro bien infor- 
mado de la sociedad. 


La idea básica 


La idea básica que yace en todos los métodos estadísticos de análisis de datos es inferir respec- 
to de una población por medio del estudio de una muestra relativamente pequeña elegida de 
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ésta. Como ejemplo, considere una máquina que hace varillas de acero para su uso en dispo- 
sitivos Ópticos de almacenamiento. La especificación del diámetro de las varillas es 0.45 + 
0.02 cm. En la última hora, la máquina ha hecho mil varillas. El ingeniero que supervisa la 
calidad quiere saber cuántas de estas varillas satisfacen la especificación. No tiene tiempo pa- 
ra medir todas. En este contexto, toma una muestra aleatoria de 50 varillas, las mide y encuen- 
tra que 46 de éstas (92%) satisfacen la especificación del diámetro. De acuerdo con lo 
anterior, no es probable que la muestra de 50 varillas represente perfectamente a la población 
de mil. La proporción de buenas varillas en la población probablemente es un poco diferente 
que la proporción de la muestra de 92%. En este sentido, lo que el ingeniero debe conocer es 
la probabilidad de que esa diferencia sea grande. Por ejemplo, ¿es admisible que los porcen- 
tajes de población sean superiores a 95%? ¿y de 98%? ¿O menores de 90%?, ¿o de 85%? 

He aquí algunas preguntas específicas que el ingeniero podría responder con base en los 
datos de la muestra: 


1. El ingeniero necesita calcular la magnitud de la diferencia probable entre las proporcio- 
nes de la muestra y de la población. ¿Qué tan grande es una diferencia típica para esta 
clase de muestra? 

2. Asimismo, necesita llevar una bitácora con los porcentajes de varillas aceptables fabrica- 
das en la última hora. Después de que ha observado que 92% de las varillas de la mues- 
tra estaba bien, indicará los porcentajes de las varillas aceptables en la población como 
un intervalo de la forma 92% + x%, donde x es un número calculado para tener una con- 
fianza razonable de que los porcentajes reales de la población están en este intervalo. 
¿Cómo se debe calcular x? 

3. Por último, quiere estar muy seguro de que el porcentaje de varillas buenas es de al me- 
nos 90%; en otro caso detendrá el proceso para recalibrarlo. ¿Qué seguridad puede tener 
de que al menos 90% de las mil varillas está bien? 


Gran parte de este libro está dedicada a solucionar preguntas semejantes. La primera de éstas 
requiere del cálculo de una desviación estándar, que se analizará en los capítulos 2 y 4. La se- 
gunda pregunta requiere de la construcción de un intervalo de confianza, ello se aprenderá en 
el capítulo 5. La tercera invoca una prueba de hipótesis, que se estudiará en el capítulo 6. 

Los capítulos restantes del libro cubren otros temas importantes. Por ejemplo, el inge- 
niero de nuestro ejemplo querrá saber cómo está relacionada la fuerza de tensión con la can- 
tidad de carbono en las varillas de acero. Esta clase de problemas se puede tratar con los 
métodos de correlación y regresión, que se presentan en los capítulos 7 y 8. Podría también 
ser importante determinar cómo ajustar el proceso de fabricación respecto de algunos facto- 
res, con el fin de producir resultados óptimos. Esto último requiere del diseño de experimen- 
tos factoriales, que se analizarán en el capítulo 9. Definitivamente, el ingeniero necesitará 
desarrollar un plan para controlar la calidad del producto que se fabrica en el proceso. En el 
capítulo 10 se presenta el tema control de la calidad, donde los métodos estadísticos se usan 
para mantener la calidad en un contexto industrial. 

Los temas que se han mencionado son métodos que se dedican a obtener conclusiones 
a partir de datos. Estos métodos constituyen el campo de la estadística inferencial. Antes de 
que se analicen estos temas, se aprenderá más acerca de los métodos de recopilación de da- 
tos y a resumir claramente la información básica que contienen. Éstos son los temas de mues- 
treo y estadística descriptiva, que se tratan en lo que resta de este capítulo. 
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1.1 Muestreo 


Como se ha mencionado, los métodos estadísticos están basados en la idea de analizar una 
muestra tomada de una población. Para trabajar con esta idea, la muestra se debe elegir de 
manera adecuada. Por ejemplo, digamos que se quiere conocer la estatura de los estudiantes 
de la Escuela de Minas, de Colorado, al considerar una muestra de 100 estudiantes. ¿Cómo 
se deben elegir los 100 estudiantes que se medirían? Algunos métodos son malos. Por ejem- 
plo, elegir a los estudiantes de las listas del fútbol americano y de los equipos de basquetbol 
daría como resultado una muestra que indudablemente no representaría la distribución de es- 
tatura de la población de estudiantes. Usted podría pensar que sería razonable usar alguna 
muestra convenientemente obtenida; por ejemplo, todos los estudiantes que viven en cierta 
área o todos aquellos que se inscribieron en el curso de estadística para la ingeniería. Después 
de todo, no hay razón para pensar que la estatura de estos estudiantes debiera ser diferente de 
la estatura, en general, de los estudiantes. Sin embargo, muestras así no son ideales, porque 
pueden volverse engañosas en formas no previstas. Los mejores métodos del muestreo impli- 
can el muestreo aleatorio. Hay muchos métodos diferentes del muestreo aleatorio, el básico 
es el muestreo aleatorio simple. 

Para entender la naturaleza de una muestra aleatoria simple, piense en una lotería. Ima- 
gine que se han vendido diez mil billetes y que se eligen cinco ganadores. ¿Cuál es la manera 
más justa de elegir a los ganadores? Es colocar todos los boletos en un recipiente, mezclarlos 
y extraer cinco de ellos uno tras otro. Los boletos premiados constituyen una muestra aleato- 
ria simple de la población de diez mil billetes de la lotería. Cada boleto es igualmente proba- 
ble de ser uno de los cinco boletos extraídos. Es importante indicar que cada conjunto de 
cinco boletos que se puede formar del total tiene la misma probabilidad de ser el grupo que 
se extrae. Esta idea constituye la base de la definición de una muestra aleatoria simple. 


E Una población representa la colección completa de elementos o resultados de la 
información buscada. 


Mm Una muestra constituye un subconjunto de una población, que contiene elementos 
o resultados que realmente se observan. 


Mi Una muestra aleatoria simple de tamaño n es una muestra elegida por un método 
en el que cada colección de n elementos de la población tiene la misma 
probabilidad de formar la muestra, de la misma manera que en una lotería. 


Debido a que una muestra aleatoria simple es similar a una lotería, con frecuencia se 
puede tomar la muestra con el mismo método que el que se usa en muchas loterías: con un 
generador de números aleatorios de una computadora. Suponga que hay N elementos en la 
población y que se le asigna a cada elemento de la población un entero entre 1 y N. Después 
se genera una lista de enteros aleatorios entre 1 y N y se eligen los elementos correspondientes 
de la población para que formen la muestra aleatoria simple, precisamente como en la lotería. 
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Una maestra de educación física quiere estudiar los niveles de condición física de los estu- 
diantes en su universidad. Hay 20 000 estudiantes inscritos y desea tomar una muestra de ta- 
maño 100 para hacerles una prueba de sus condiciones físicas. Obtiene una lista de todos los 
estudiantes, numerada del 1 al 20 000. Usa un generador de números aleatorios de la compu- 
tadora que genera 100 enteros aleatorios entre el total de números y después invita a los 100 
estudiantes, a quienes corresponden dichos números, a que participen en el estudio. ¿Ésta es 
una muestra aleatoria simple? 


Solución 
Sí, ésta es una muestra aleatoria simple. Observe que es similar a una lotería en la que cada 
estudiante tiene un boleto y se sacan 100 de éstos. 


Una ingeniero que supervisa la calidad quiere inspeccionar rollos de papel tapiz para obtener 
información acerca de la tasa de fallas que tiene la imprenta. Decide tomar una muestra de 50 
rollos de la producción de un día. Cada hora durante cinco horas, toma los diez últimos rollos 
producidos y cuenta el número de fallas de cada uno. ¿Ésta es una muestra aleatoria simple? 


Solución 

No. No todo subconjunto de 50 rollos de papel tapiz tiene la misma probabilidad de pertene- 
cer a la muestra. Para formar una muestra aleatoria simple, la ingeniero necesitaría asignar un 
número a cada rollo producido durante el día y después generar números aleatorios para de- 
terminar con qué rollos se forma la muestra. 


En algunos casos, es difícil o imposible extraer una muestra de una manera realmente 
aleatoria. En esta situación, lo mejor que se puede hacer es seleccionar los elementos de la 
muestra por algún método conveniente. Por ejemplo, imagine que un ingeniero civil acaba de 
recibir una remesa de mil bloques de hormigón, que pesan aproximadamente 50 libras cada 
uno. Los bloques se han entregado en una gran pila. El ingeniero quiere investigar la fuerza 
de compresión de los bloques midiendo las fuerzas en una muestra de diez bloques. Para to- 
mar una muestra aleatoria simple se requeriría sacar bloques del centro y de la parte inferior 
de la pila, lo que puede ser muy difícil. Por esta razón, el ingeniero puede tomar una muestra 
simplemente tomando diez bloques de la parte superior de la pila. Una muestra así se llama 
muestra de conveniencia. 


Definición 


Una muestra de conveniencia es una muestra que no se extrae por un método 
aleatorio bien definido. 


El problema con las muestras de conveniencia es que podrían diferir sistemáticamente 
de la población en alguna forma. Por esta razón, tales muestras no se deben usar, excepto en 
situaciones donde no es viable tomar una muestra aleatoria. Cuando se necesita tomar una 
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muestra de conveniencia, es importante pensar en todas las formas en las que aquélla podría 
diferir sistemáticamente de la población. Si es razonable pensar que no existe una diferencia 
sistémica importante, entonces puede ser aceptable tratar la muestra de conveniencia como si 
fuera una muestra aleatoria simple. Respecto de los bloques de hormigón, si el ingeniero es- 
tá seguro de que los bloques superiores en la pila no difieren sistemáticamente en alguna for- 
ma importante del resto, entonces puede tratar la muestra de conveniencia como una muestra 
aleatoria simple. Sin embargo, si es posible que los bloques en diferentes lugares de la pila 
hayan sido hechos con diferentes cantidades de mezclas o que puedan tener diferentes tiem- 
pos de cocido o diferentes temperaturas, entonces una muestra de conveniencia podría dar re- 
sultados falsos. 

Algunas personas piensan que una muestra aleatoria simple es garantía de que refleja 
perfectamente a su población. Esto no es cierto. Las muestras aleatorias simples siempre son 
diferentes de sus poblaciones en algunos aspectos y en ocasiones podrían ser considerable- 
mente diferentes. Dos muestras diferentes de la misma población también serán diferentes en- 
tre sí. Este fenómeno se conoce como variación del muestreo. Esta última constituye una de 
las razones por la que los experimentos científicos tienen resultados diferentes cuando se re- 
piten, aun cuando las condiciones parecen ser idénticas. 


Un inspector de calidad prueba 40 pernos de una gran remesa y mide la longitud de cada uno. 
Descubre que 34 de ellos (85%) cubre la especificación de longitud. Llega entonces a la con- 
clusión de que exactamente 85% de los pernos de la remesa satisfacen la especificación. Por 
otra parte, el supervisor del inspector concluye que la proporción de pernos buenos está cer- 
ca de 85% con cierta probabilidad, pero que no es exactamente igual. ¿Cuál es la conclusión 
correcta? 


Solución 

Debido a la variación del muestreo, las muestras aleatorias simples no reflejan a la población 
perfectamente. Sin embargo, con frecuencia están bastante cerca. Por tanto, resulta adecuado 
inferir que la proporción de pernos buenos en la remesa esté cerca de la proporción de mues- 
tra, que es de 85%, con cierta probabilidad. Sin embargo, no es probable que la proporción 
de población sea igual a 85 por ciento. 


Continuando con el ejemplo 1.3, otra inspectora repite el estudio con una muestra aleatoria 
simple diferente de 40 pernos. Descubre que 36 de ellos, 90%, son buenos. El primer inspec- 
tor afirma que ella debió haber cometido algún error, ya que sus resultados mostraban que 
85% y no 90% de los pernos son buenos. ¿Tiene razón? 


Solución 
No, él no tiene razón. Es la variación del muestreo en acción. Dos muestras diferentes de la 
misma población serán diferentes entre sí y de la población. 


Ya que las muestras aleatorias simples no reflejan a sus poblaciones perfectamente, 
¿por qué es importante que el muestreo sea aleatorio? La ventaja de una muestra aleatoria 
simple es que no hay ningún mecanismo sistémico que la haga poco representativa. Las dife- 
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rencias entre la muestra y su población son atribuibles completamente a la variación aleato- 
ria. Debido a que la teoría matemática sobre la variación aleatoria se comprende bien, se pue- 
den usar modelos matemáticos para estudiar la relación entre muestras aleatorias simples y 
sus poblaciones. En general, para una muestra que no fue seleccionada de forma aleatoria, no 
existe una teoría disponible que describa los mecanismos que causaron que la muestra difie- 
ra de su población. Por tanto, con frecuencia las muestras que no fueron obtenidas aleatoria- 
mente son difíciles de analizar de manera confiable. 

En los ejemplos 1.1 a 1.4, las poblaciones constaban de elementos físicos reales: estu- 
diantes de una universidad, bloques de concreto de una pila, pernos de una remesa. Estas po- 
blaciones se denominan poblaciones tangibles. Este tipo de poblaciones son siempre finitas. 
Después de que se muestrea un elemento, el tamaño de población disminuye en 1. En princi- 
pio, uno podría en algunos casos regresar el elemento muestreado a la población, con oportu- 
nidad de muestrearlo nuevamente, pero esto rara vez se hace en la práctica. 

En ingeniería es frecuente que los datos sean producto de mediciones realizadas duran- 
te un experimento científico, más que por muestreo de una población tangible. Tomando un 
ejemplo simple, imagine que un ingeniero mide la longitud de una varilla cinco veces, hacien- 
do las mediciones en la forma más cuidadosa posible con condiciones idénticas. No importa 
qué tan cuidadosamente se hayan hecho las mediciones, diferirán un poco una de otra, debi- 
do a la variación en el proceso de medición que no se puede controlar o predecir. Esto último 
da como resultado que con frecuencia sea adecuado considerar estos datos como una mues- 
tra aleatoria simple de una población. En estos casos, la población consta de todos los valo- 
res que posiblemente pueden haber sido observados. Esta población se denomina población 
conceptual, ya que no consta de elementos reales. 


Una muestra aleatoria simple puede consistir de valores obtenidos en un proceso en 
condiciones experimentales idénticas. En este caso, la muestra proviene de una po- 
blación que consta de todos los valores posibles que se han observado. A este tipo 
de población se le denomina población conceptual. 


El ejemplo 1.5 implica una población conceptual. 


Un geólogo pesa una roca varias veces en una balanza analítica. Cada vez, la balanza da una 
lectura ligeramente diferente. ¿Bajo qué condiciones se pueden considerar estas lecturas co- 
mo una muestra aleatoria simple? ¿Cuál es la población? 


Solución 

Si las características físicas de la balanza permanecen iguales cada vez que se pesa, se puede 
considerar que las mediciones se hacen bajo condiciones idénticas, entonces las lecturas se 
pueden considerar como una muestra aleatoria simple. La población es conceptual. Consta de 
todas las lecturas que la balanza en principio podría producir. 


Observe que en el ejemplo 1.5, son las características físicas del proceso de medición 
las que determinan si los datos constituyen una muestra aleatoria simple. En general, cuando 
se decide si un conjunto de datos se puede considerar una muestra aleatoria simple, es muy 
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útil tener una comprensión del proceso que generó los datos. Algunas veces los métodos es- 
tadísticos pueden ayudar, especialmente cuando la muestra es grande, pero el conocimiento 
del mecanismo que produjo los datos es más importante. 


Se ha diseñado un nuevo proceso químico que se supone tendrá una producción más alta de 
cierta sustancia química que durante el proceso anterior. Para investigar los resultados de es- 
te proceso, lo realizamos 50 veces y registramos los 50 resultados. ¿Bajo qué condiciones se- 
ría razonable considerar lo anterior como una muestra aleatoria simple? Describa algunas 
condiciones bajo las cuales puede no resultar adecuado considerar esto último como una 
muestra aleatoria simple. 


Solución 

Para responder a esto, primero debemos especificar la población. La población es conceptual 
y consta del conjunto de todos los resultados que se obtienen de este proceso, así como de las 
veces que se realizó. Lo que hemos llevado a cabo es un muestreo de los 50 primeros resulta- 
dos del proceso. Si y sólo si estamos seguros de que los primeros 50 resultados se han gene- 
rado en condiciones idénticas y que no difieren en ninguna forma sistémica de los resultados 
de futuras realizaciones, podremos tratarlos como una muestra aleatoria simple. 

Sin embargo, sea cauteloso. Hay muchas condiciones por las que 50 resultados podrían 
dejar de ser una muestra aleatoria simple. Por ejemplo, con procesos químicos, algunas veces 
se da el caso de que realizaciones con resultados altos son seguidas de realizaciones con re- 
sultados bajos y viceversa. A veces los resultados tienden a aumentar con el tiempo, confor- 
me los ingenieros de proceso aprenden por la experiencia cómo hacer funcionar el proceso de 
manera más eficiente. En estos casos, los resultados no se han generado bajo las mismas con- 
diciones y no constituyen una muestra aleatoria simple. 


El ejemplo 1.6 muestra nuevamente que un buen conocimiento de la naturaleza del pro- 
ceso en estudio es importante para determinar si los datos se pueden considerar como mues- 
tra aleatoria simple. Los métodos estadísticos algunas veces se usan para mostrar que un 
conjunto de datos dado no representa necesariamente una muestra aleatoria simple. Por ejem- 
plo, a veces las condiciones experimentales cambian gradualmente con el tiempo. Un método 
simple, pero efectivo para detectar esta condición, es realizar una gráfica con las observacio- 
nes en el orden en que se tomaron. Una muestra aleatoria simple no debe mostrar ningún pa- 
trón o tendencia obvia. 

La figura 1.1 presenta las gráficas de tres muestras en el orden en que se tomaron. La 
gráfica de la figura 1.1a muestra un patrón oscilatorio. La gráfica en la figura 1.1b muestra 
una tendencia creciente. Ninguna de estas muestras se debe tratar como muestra aleatoria sim- 
ple. La gráfica en la figura 1.1c no parece mostrar ningún patrón o tendencia obvia. Podría ser 
apropiado tratar estos datos como una muestra aleatoria simple. Sin embargo, antes de tomar 
esa decisión, es aún importante pensar acerca del proceso que produjo estos datos, ya que pue- 
de haber cuestiones que no son evidentes en la gráfica (véase el ejemplo 1.7). 

A veces la pregunta respecto de si un conjunto de datos es una muestra aleatoria sim- 
ple, depende de la población en estudio. Se puede dar el caso para el cual una gráfica pueda 
parecer buena, aun cuando los datos no sean una muestra aleatoria simple. En el ejemplo 1.7 
se da un caso. 
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FIGURA 1.1 Tres gráficas de valores observados contra el orden en que se hicieron. a) Los valores indican un patrón de- 
finido en el tiempo. Esta no es una muestra aleatoria simple. b) Los valores muestran una tendencia en el tiempo. Esta no 
es una muestra aleatoria simple. c) Los valores no muestran un patrón o tendencia. Puede ser adecuado tratar estos datos co- 
mo una muestra aleatoria simple. 


Ejemplo 


Un nuevo proceso químico se realiza diez veces cada mañana durante cinco días consecuti- 
vos. Una gráfica de los resultados en el orden en que aparecieron no presenta ningún patrón 
o tendencia obvia. Si el nuevo proceso se pone en producción, haciéndolo funcionar diez ho- 
ras todos los días, desde las 7 a.m. hasta las 5 p.m. ¿Es razonable considerar que los 50 resul- 
tados sean una muestra aleatoria simple? ¿Qué ocurre si el proceso está siempre funcionando 
por la mañana? 


Solución 
Debido a que se intenta poner en funcionamiento el nuevo proceso tanto durante la mañana 
como en la tarde, la población consta de todos los resultados que alguna vez se observarán, 
incluyendo tanto las realizaciones por la mañana como por la tarde. La muestra se toma sólo 
de la parte de la población de los resultados matutinos; por tanto, no es una muestra aleatoria 
simple. Hay muchas cosas que podrían estar equivocadas si esto se usa como una muestra 
aleatoria simple. Por ejemplo, las temperaturas ambientales pueden ser diferentes entre la ma- 
ñana y la tarde, ello podría afectar los resultados. 

Si el proceso funcionara sólo por la mañana, entonces la población constaría sólo de re- 
sultados matutinos. Debido a que la muestra no presenta ningún patrón o tendencia obvia, 
bien podría ser apropiado considerarla como muestra aleatoria simple. 


Independencia 


Se dice que los elementos en una muestra son independientes si al conocer los valores de al- 
gunos de ellos no ayuda a predecir los valores de los otros. Con una población finita y tangl- 
ble, los elementos en una muestra aleatoria simple no son estrictamente independientes, ya 
que cuando se extrae cada elemento, la población cambia. Este cambio puede ser importante 
cuando la población es pequeña. Sin embargo, cuando la población es muy grande, este cam- 
bio resulta insignificante y los elementos se pueden tratar como si fueran independientes. 
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Para ilustrar esta idea, imagine que se toma una muestra aleatoria simple de dos elemen- 
tos de la población 


0 [o 1 [1 


Para la primera extracción, los números O y 1 son igualmente probables. Pero el valor del se- 
gundo elemento está evidentemente influido por el primero; si el primero es O, es más proba- 
ble que el segundo sea 1 y viceversa. Por tanto, los elementos de la muestra son dependientes. 
Ahora suponga que sacamos una muestra de tamaño 2 de esta población: 


Un millón | O |'s Un millón | 1 |'s 


Nuevamente en la primera extracción, los números O y 1 son igualmente probables. Pero a di- 
ferencia del ejemplo anterior, también estos dos valores permanecen casi de la misma manera 
en la segunda extracción, sin que importe lo que sucede en la primera extracción. Con pobla- 
ciones grandes, los elementos de la muestra son para todos los propósitos prácticos indepen- 
dientes. 

Es razonable preguntarse qué tan grande debe ser una población para que los elemen- 
tos en una muestra aleatoria simple se traten como independientes. Una regla general señala 
que cuando se toma una muestra de una población finita, los elementos se pueden tratar co- 
mo independientes en tanto la muestra consista de 5% o menos de la población. 

Curiosamente, es posible hacer que una población se comporte como si fuera infinita- 
mente grande, reemplazando cada elemento después de que se ha muestreado. Este método 
se denomina muestreo con reemplazo. Con este método la población es exactamente la mis- 
ma en cada extracción y los elementos muestreados son realmente independientes. 

Con una población conceptual, se requiere que los elementos de la muestra se produz- 
can en condiciones experimentales idénticas. En particular, ningún valor de muestra puede in- 
fluir en las condiciones bajo las cuales se producen los otros. Por tanto, los elementos en una 
muestra aleatoria simple de una población conceptual se pueden tratar como independientes. 
Podemos pensar que una población conceptual es infinita, o de manera equivalente que los 
elementos se muestrean con reemplazo. 


m Los elementos en una muestra son independientes si el conocimiento de algunos 
de los valores de los elementos no ayuda a predecir los valores de los otros. 


mM Los elementos en una muestra aleatoria simple se pueden tratar como indepen- 
dientes en muchos casos que se encuentran en la práctica. Ocurre una excepción 
cuando la población es finita y la muestra consiste de una parte importante (más 
de 5%) de la población. 
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Otros métodos de muestreo 


Además del muestreo aleatorio simple, existen otros métodos de muestreo que son útiles en 
diversas situaciones. En el muestreo ponderado a algunos elementos se les da una mayor 
oportunidad que a los otros para ser seleccionados, de la misma manera que en una lotería en 
la que algunas personas tienen más boletos que otros. En el muestreo aleatorio estratifica- 
do, la población se divide en subpoblaciones, llamadas estratos y se extrae una muestra aleato- 
ria simple de cada estrato. En el muestreo agrupado, los elementos se extraen de la población 
en grupos o conglomerados. El muestreo agrupado es útil cuando la población es demasiado 
grande y se encuentra extendida de tal forma que es posible tomar una muestra aleatoria sim- 
ple. Por ejemplo, muchos de los organismos del gobierno estadounidense usan muestreo agru- 
pado para muestrear a la población de los Estados Unidos para medir factores sociológicos, 
como ingresos y número de desempleados. Una buena fuente de información acerca de mé- 
todos de muestreo es Cochran (1977). 

El muestreo aleatorio simple no es el único método válido de muestreo aleatorio. Pero 
es el más importante y se le prestará la mayor parte de la atención. Por el momento, a menos 
que se indique otra cosa, se considerará que los términos “muestra” y “muestreo aleatorio” 
significan “muestra aleatoria simple”. 


Tipos de experimentos 


Hay muchas clases de experimentos que se pueden usar para generar datos. Describiremos 
brevemente algunos de ellos. En un experimento de una-muestra, hay sólo una población de 
interés y se extrae únicamente una muestra de ésta. Por ejemplo, imagine que se ha diseñado 
un proceso para producir polietileno que se usará para hacer tubos. En este contexto, un ex- 
perimento mediante el cual se producen algunas muestras de polietileno y se mide la fuerza 
de tensión de cada una constituye un experimento de una-muestra. Se considera que las fuer- 
zas medidas representan una muestra aleatoria simple de una población conceptual de todas 
las fuerzas posibles que se pueden observar en las muestras fabricadas por este proceso. Los 
experimentos del tipo una-muestra se pueden usar para determinar si un proceso satisface 
cierta norma; por ejemplo, si tienen la fuerza suficiente para una aplicación dada. 

En un experimento de muestras-múltiples, hay dos o más poblaciones de interés y se 
toma una muestra de cada población. Por ejemplo, si están compitiendo algunos procesos pa- 
ra ser considerados en la fabricación de polietileno y se miden las fuerzas de tensión en una 
muestra de los elementos de cada proceso, se entiende que éste es un experimento de mues- 
tras-múltiples. A cada proceso le corresponde una población distinta y a las mediciones he- 
chas sobre los elementos de un proceso dado se les considera una muestra aleatoria simple de 
esa población. El propósito habitual de los experimentos de muestras-múltiples es hacer com- 
paraciones entre las poblaciones. En este ejemplo, el propósito podría ser que se determine el 
proceso que produce la mayor fuerza o que se determine si hay alguna diferencia en las fuer- 
zas en el polietileno que se produjo mediante los diferentes procesos. 

En muchos experimentos de muestras-múltiples, las poblaciones se distinguen entre sí 
al cambiar uno o más factores que pueden afectar el resultado. A estos experimentos se les 
llama experimentos factoriales. Por ejemplo, G. Fredrickson, en su tesis de maestría en la 
Escuela de Minas, de Colorado, midió la dureza ante el impacto de la muesca Charpy V para 
un importante número de soldaduras. Cada soldadura estaba hecha de uno de dos tipos de me- 
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tales base y se había medido su dureza a diferentes temperaturas. Éste fue un experimento fac- 
torial con dos factores: el metal base y la temperatura. Los datos consistían de varias medi- 
ciones de la dureza hechas con combinaciones del metal base y la temperatura. En un 
experimento factorial, cada combinación de los factores para los cuales se recopilan datos de- 
fine una población y se extrae una muestra aleatoria simple de cada población. El propósito 
de un experimento factorial es determinar cómo afecta el resultado al cambiar los niveles de 
los factores. En su experimento, Fredrickson encontró que para cada tipo de metal base, la du- 
reza no es afectada por la temperatura a menos que esta última estuviese en un nivel muy ba- 
jo, debajo de —100*C. Conforme la temperatura se reducía de —100%C a —200*C, la dureza 
bajaba uniformemente. 


Tipos de datos 


Cuando se asigna una cantidad numérica a cada elemento de una muestra, al conjunto de va- 
lores resultante se le llama numérico o cuantitativo. En algunos casos, los elementos de la 
muestra son puestos en categorías. Entonces los datos son categóricos o cualitativos. En el 
ejemplo 1.8 se presenta un caso. 


En el artículo “Hysteresis Behavior of CFT Column to H-Beam Connections with External TE 
Stiffeners and Penetrated Elements” (C. Kang, K. Shin y colaboradores, Engineering Struc- 
tures, 2001:1194-1201) se reportaron los resultados de las pruebas de carga cíclicas en una 
columna tubular llena de concreto (CFT) para conexiones soldadas de vigas-H. Se cargaron 
algunos especímenes de prueba hasta que fallaron. Algunas fallas ocurrieron en la unión sol- 
dada; otras ocurrieron al doblarse la viga misma. Para cada muestra se registró la posición de 
la falla, junto con el par de torsión aplicado en la falla [en kilonewton-metros (kN - m)]. Los 
resultados para las primeras cinco muestras fueron los siguientes: 


Par de torsión Posición 
Muestra (kN - m) de la falla 
1 165 Soldadura 
2 237 Viga 
3 222 Viga 
4 255 Viga 
E] 194 Soldadura 


¿Qué datos son numéricos y cuáles categóricos? 


Solución 
Los pares de torsión, en la columna de en medio, son datos numéricos. Las posiciones de la 
falla, en la columna de la derecha, son datos categóricos. 
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Ejercicios para la sección 1.1 


1. 


Cada uno de los siguientes procesos implica el muestreo de 
una población. Defina la población y diga si es tangible o 
conceptual. 


a) Se recibe una remesa de pernos de un distribuidor. Para 
verificar si la remesa es aceptable respecto de la fuerza 
de corte, un ingeniero selecciona diez pernos, uno tras 
otro, del recipiente para probarlos. 

b) La resistencia de cierto resistor se mide cinco veces con 
el mismo óhmetro. 

c) Un estudiante de posgrado que se especializa en ciencia 
ambiental forma parte de un equipo de estudio que está 
evaluando el riesgo para la salud humana de cierto con- 
taminante presente en el agua de la llave en su pueblo. 
Una parte del proceso de evaluación implica calcular la 
cantidad de tiempo que las personas que viven en ese 
pueblo está en contacto con el agua de la llave. El estu- 
diante convence a los residentes del pueblo para que lle- 
ven una agenda mensual, detallando la cantidad de 
tiempo que están en contacto con el agua de la llave día 
con día. 

d) Se hacen ocho soldaduras con el mismo proceso y se 
mide la fuerza en cada una. 

e) Un ingeniero responsable del control de calidad tiene 
que calcular el porcentaje de piezas fabricadas defectuo- 
sas en determinado día. A las 2:30 de la tarde muestrea 
las últimas 100 piezas fabricadas. 


Si usted quisiera calcular la altura media de todos los estu- 
diantes en una universidad, ¿cuál de las siguientes estrate- 
gias de muestreo sería la mejor? ¿Por qué? Observe que 
ninguno de los métodos son realmente muestras aleatorias 
simples. 


1) Medir la estatura de 50 estudiantes que se encuentran en 
el gimnasio durante el juego de basquetbol en la escuela. 

ii) Medir la estatura de todos los especialistas en ingeniería. 

iii) Medir la estatura de los estudiantes, eligiendo el primer 
nombre de cada página de la guía telefónica del campus 
universitario. 


Verdadero o falso: 


a) Una muestra aleatoria simple garantiza que refleja exac- 
tamente a la población de la que se extrajo. 

b) Una muestra aleatoria simple está libre de cualquier ten- 
dencia sistémica en diferir de la población de la que se 
extrajo. 


Una ingeniera de control de calidad extrae una muestra 
aleatoria simple de 50 anillos-O de un lote de varios miles. 
Mide el espesor de cada uno y descubre que 45 de ellos, 


5. 


90%, cumple con cierta especificación. ¿Cuál de los si- 
guientes enunciados es correcto? 


i) La proporción de anillos-O en el lote completo que 
cumple con la especificación probablemente es igual a 
90 por ciento. 

ii) La proporción de anillos-O en el lote completo que 
cumple con la especificación probablemente está cerca 
de representar 90%, pero probablemente no es igual al 
total. 


Se ha usado durante mucho tiempo un proceso para la fabri- 
cación de botellas de plástico y se sabe que 10% de éstas se 
encuentra defectuoso. Se está probando un nuevo proceso 
que, se supone, reduce la proporción de defectos. En una 
muestra aleatoria simple de 100 botellas producidas con el 
nuevo proceso, diez estaban defectuosas. 


a) Uno de los ingenieros sugiere que la prueba demuestra 
que el nuevo proceso no es mejor que el proceso ante- 
rior, ya que la proporción de defectos es la misma. ¿Es 
ésta una conclusión justificada? Explique. 

b) Suponga que hubieran sido solamente nueve las botellas 
defectuosas de la muestra de 100. ¿Esto habría probado 
que el nuevo proceso es mejor? Explique. 

c) ¿Qué resultado presenta pruebas más evidentes de que 
el nuevo proceso es mejor: encontrar nueve botellas de- 
fectuosas en la muestra o encontrar dos botellas defec- 
tuosas en la muestra? 


Con referencia al ejercicio 5. Verdadero o falso: 


a) Si la proporción de defectos en la muestra es menor a 
10%, es confiable concluir que el nuevo proceso es mejor. 

b) Si la proporción de defectos en la muestra es sólo ligera- 
mente menor a 10%, la diferencia bien podría ser com- 
pletamente atribuible a la variación del muestreo y no es 
confiable concluir que el nuevo proceso es mejor. 

c) Si la proporción de defectos en la muestra es mucho me- 
nor a 10%, es muy poco probable que la diferencia sea 
atribuible completamente a la variación del muestreo, 
por lo que es confiable llegar a la conclusión de que el 
nuevo proceso es mejor. 

d) No importa qué tan pocos defectos aparezcan en la 
muestra, el resultado bien podría ser completamente 
atribuible a la variación del muestreo, por lo que no es 
confiable concluir que el nuevo proceso es mejor. 


Para determinar si una muestra se debe tratar como una 
muestra aleatoria simple, ¿qué es más importante: un buen 
conocimiento de la estadística o un buen conocimiento del 
proceso que produce los datos? 
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1.2 Resumen estadístico 


Con frecuencia una muestra constituye una larga lista de números. Para ayudar a que las ca- 
racterísticas de una muestra sean evidentes, se calcula el resumen estadístico. Las dos cantida- 
des más usadas en el resumen estadístico son la media de la muestra y la desviación 
estándar de la muestra. La primera indica el centro de los datos y la segunda señala cómo 
están distribuidos los datos. 


Media muestral 


La media muestral también se llama “media aritmética”, o, simplemente, “promedio”. Repre- 
senta la suma de los números en la muestra, dividido entre la cantidad total de números que hay. 


Definición 
Sea X;, ..., X, una muestra. La media muestral es 
1 n 
it YX: (1.1) 


Observe que se acostumbra usar una letra con una barra encima de ésta (por ejemplo X') pa- 
ra denotar la media de una muestra. También observe que la media muestral tiene las mismas 
unidades que los valores de la muestra X;, ..., X,,. 


Una muestra aleatoria simple de cinco hombres se elige de entre una gran población de hom- 
bres y se mide su estatura. Las cinco cifras de estatura (en pulgadas) son 65.51, 72.30, 68.31, 
67.05 y 70.68. Encuentre la media muestral. 


Solución 
Usamos la ecuación (1.1). La media muestral es 


El 
X= 5 (65.51 + 72.30 + 68.31 + 67.05 + 70.68) = 68.77 pulgadas. 


Desviación estándar 


He aquí dos series de datos: 28, 29, 30, 31, 32 y 10, 20, 30, 40, 50. Ambas tienen la misma 
media de 30. Pero obviamente difieren en una manera importante que no es captada por la me- 
dia: la segunda serie es mucho más dispersa que la primera. La desviación estándar es una 
cantidad que mide el grado de dispersión en una muestra. 

Sea X;,... , X, una muestra. La idea básica detrás de la desviación estándar es que cuan- 
do la dispersión es grande, los valores de la muestra tenderán a alejarse de su media, pero 
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cuando la dispersión es pequeña, los valores tenderán a acercarse a su media. En este contex- 
to, el primer paso en el cálculo de la desviación estándar es calcular las distancias (también 
llamadas desviaciones) de cada valor de la muestra a la media de la muestra. Las desviacio- 
nes son (X, — X),..., (X, — X). Ahora algunas de estas desviaciones son positivas y otras 
negativas. Las desviaciones grandes, tanto negativas como positivas, son indicadores de la 
dispersión. Para hacer todas las desviaciones positivas se elevan al cuadrado, con lo que se 
obtienen las desviaciones al cuadrado (X, — E y XY.A partir de las desviacio- 
nes al cuadrado se puede calcular una medida de la dispersión llamada la varianza muestral. 
Ésta constituye el promedio de las desviaciones al cuadrado, excepto que lo dividimos en- 


tre n — 1 en lugar de n. Se acostumbra denotar a la varianza muestral con $. 


Definición 
Sea X,,..., X, una muestra. La varianza muestral es la cantidad 
1 ” == 
== N (Xx; — X) (1.2) 


¡=1 


s?= 


Una fórmula equivalente, que puede ser más fácil de calcular, es 


1 a EA 
A Nx: (1.3) 


n=1 
¡=1 


Mientras que la varianza muestral es una cantidad importante, tiene una seria desventaja 
como una medida de la dispersión. Sus unidades no son las mismas que las unidades de los va- 
lores de la muestra; éstas tienen unidades al cuadrado. Para obtener una medida de la dispersión 
cuyas unidades sean las mismas que las de los valores de la muestra, simplemente se toma la 
raíz cuadrada de la varianza. Esta cantidad se denomina desviación estándar muestral. Se 
acostumbra denotar a la desviación estándar muestral por la letra s (la raíz cuadrada de 5. 


Definición 


Sea X;, ..., X, una muestra. La desviación estándar muestral es la cantidad 


1 e 
| N (Xi — Xy? (1.4) 


Una fórmula equivalente, que puede ser más fácil de calcular, es 


1 ds ue 
= > XxX? —nX 
s 1 2% n (1.5) 


La desviación estándar muestral constituye la raíz cuadrada de la varianza muestral. 
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Es natural preguntarse por qué la suma de las desviaciones al cuadrado se divide entre 
n — 1 en lugar de n. El propósito de calcular la desviación estándar muestral es calcular la 
cantidad de la dispersión en la población de la cual se extrajo aquélla. Por tanto, idealmente 
se calcularían las desviaciones de la media de todos los elementos de la población, en vez de 
las desviaciones de la media de la muestra. Sin embargo, la media de la población general- 
mente no se conoce, por lo que en su lugar se usa la media de la muestra. Es un hecho mate- 
mático que las desviaciones alrededor de la media muestral tienden a ser un poco más 
pequeñas que las desviaciones alrededor de la media poblacional y que al dividir entre n — 1 
en vez de n proporciona la rectificación correcta. 


Encuentre la varianza muestral y la desviación estándar muestral para los datos de las estatu- 
ras del ejemplo 1.9. 


Solución 
Primero se calculará la varianza muestral usando la ecuación (1.2). La media muestral es X = 
68.77 (véase el ejemplo 1.9). La varianza muestral es, por tanto, 


1 E 
s?= q 165.51 8772 (1230 =68 77 + (68,31 =68.77P 
+ (67.05 — 68.77)? + (70.68 — 68.77)?] = 7.47665 


Por otra parte, se puede usar la ecuación (1.3): 


2 1 2 2 2 2 2 2 
só= ¿165.51 + 72.30% + 68.31% + 67.05% + 70.68% — 5(68.77%)] = 7.47665 


La desviación estándar muestral es la raíz cuadrada de la varianza muestral: 


s = 4 7.47665 = 2.73 


¿Qué le pasaría a la media, a la varianza y a la desviación estándar muestrales si la es- 
tatura de los estudiantes en el ejemplo 1.9 fuera medida en centímetros en vez de pulgadas? 
Denotemos la estatura en pulgadas por X, X>, X3, Xy, X5 y la estatura en centímetros por Y, 
Y), Y, Ya, Ys. Entonces, la relación entre las X, y las Y, está dada por Y, = 2.54 X;. Si regresa 
al ejemplo 1.9, convierte a centímetros y calcula la media muestral, encontrará que las medias 
de la muestra en centímetros y en pulgadas están relacionadas por la ecuación Y = 2.54 X. 
Por consiguiente, si multiplicamos cada elemento de la muestra por una constante, la media 
de la muestra se multiplica por la misma constante. En cuanto a la varianza de la muestra, se 
encontrará que las desviaciones están relacionadas por la ecuación (Y, — Y) = 2.54 (X, - X). 
Por tanto, sy = 2.54% y sy = 2.54sx. 

¿Qué sucede si cada hombre en la muestra utilizó zapatos que elevaron su estatura dos 
pulgadas? Entonces cada estatura de la muestra aumenta dos pulgadas y la media de la mues- 
tra también en esa proporción. En general, si se agrega una constante a cada elemento de la 
muestra, la media de la muestra aumenta (o disminuye) en la misma constante. Sin embargo, 
las desviaciones no cambian, por lo que la varianza y la desviación estándar de la muestra no 
se ven afectadas. 
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CAPÍTULO 1 Muestreo y estadística descriptiva 


mM SiX,...,X, es una muestra y Y, = a + bX;, donde a y b son constantes, entonces 
Y =a+bxX. 
M SiX,...,X, es una muestra y Y, = a + bX;, donde a y b son constantes, entonces 


2 2,2 
Sy = b Sx» Y Sy = lb]sx. 


Datos atípicos 


A veces una muestra puede contener algunos puntos que son mucho más grandes o pequeños 
que el resto. Estos puntos se llaman datos atípicos. Véase la figura 1.2 como ejemplo. A ve- 
ces los datos atípicos son resultado de errores al ingresar datos; por ejemplo, un punto deci- 
mal perdido puede dar como resultado un valor que es de un orden de magnitud diferente del 
resto. Los datos atípicos se deben examinar siempre y cualquiera de ellos que se encuentre es 
resultado de un error que se debe corregir o eliminar. Aunque no todos los datos atípicos son 
errores. A veces una población podría contener algunos valores que son muy diferentes del 
resto y los datos atípicos en la muestra reflejan este hecho. 


AAA XK 
Atípico 


FIGURA 1.2 Conjunto de datos que contiene un dato atípico. 


Los datos atípicos representan un verdadero problema para los analistas de datos. Co- 
mo consecuencia de lo anterior, cuando las personas ven datos atípicos en sus datos, tratan de 
encontrar una razón o un pretexto para eliminarlos. Sin embargo, un dato atípico no se debe 
eliminar, a menos que se tenga la seguridad de que es resultado de un error. Cabe señalar que, 
si una población realmente contiene datos atípicos y son eliminados de la muestra, esta últi- 
ma no caracterizará correctamente a la población. 


Mediana muestral 


La mediana, al igual que la media, representa una medida de tendencia central de los datos. 
Para calcular la mediana de una muestra, ordene los valores del más pequeño al más grande. 
La mediana es el número de en medio. Si el tamaño de la muestra es un número par, se acos- 
tumbra tomar a la mediana muestral como el promedio de los dos números de en medio. 


Definición 


Si n números están ordenados del más pequeño al más grande: 


E Si nes impar, la mediana muestral es el número en la posición Y Z 1. 


E Sin es par, la mediana muestral representa el promedio de los números en las 


posiciones eN y > +1. 
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Encuentre la mediana muestral para los datos de la estatura en el ejemplo 1.9. 


Solución 
Las cifras de los cinco casos de estatura, en orden creciente, son 65.51, 67.05, 68.31, 70.68, 
72.30. La mediana muestral es el número de en medio, que es 68.31. 


La mediana se usa con frecuencia como una medida de tendencia central para muestras 
que contienen datos atípicos. Con el propósito de saber por qué, considere que la muestra 
consta de los valores 1, 2, 3, 4 y 20. La media es 6 y la mediana es 3. Es razonable pensar que 
la mediana es más representativa de la muestra que la media. Véase la figura 1.3. 


HHXK X 


7] 


Mediana Media 


FIGURA 1.3 Cuando una muestra contiene datos atípicos, la mediana podría ser más 
representativa de la muestra que la media. 


La media recortada 


De la misma manera que la mediana, la media recortada es una medida de tendencia central 
que se diseñó para que no esté afectada por datos atípicos. La media recortada se calcula al 
arreglar los valores de la muestra en orden, “recortar” un número igual a partir de cada extre- 
mo y calcular la media de los restantes. Si se “recorta” el p% de los datos de cada extremo, 
la media recortada resultante se denomina “media recortada un p%”. No existe fórmula ni fá- 
cil ni difícil para saber cuántos valores se deben recortar. Las más comunes son las medias 
recortadas al 5, 10 y 20%. Observe que la mediana se puede pensar como una forma extrema 
de la media recortada, obtenida de recortar todo, excepto uno o dos valores de en medio de la 
muestra. 

Debido a que el número de puntos de datos recortados debe ser un número entero, en 
muchos casos es imposible recortar los porcentajes exactos que se piden de los datos. Si el ta- 
maño muestral se denota por n y se desea recortar un p%, el número de datos a ser recorta- 
dos es np/100. Si éste no es un número entero, lo más sencillo que se debe hacer cuando se 
calcula manualmente es redondear al número entero más cercano y recortar esa cantidad. 


En el artículo “Evaluation of Low-Temperature Properties of AMA Mixtures” (P. Sebaaly, A. 
Lake y J. Epps, en Journal of Transportation Engineering, 2002:578-583) se midieron los si- 
guientes valores de la tensión de fractura (en megapascales) para una muestra de 24 mezclas 
de asfalto mezclado caliente (AMA). 


30 75 79 80 Ss0 105 126 138 149 179 179 191 
223 232 232 236 240 242 245 247 254 274 384 470 
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CAPÍTULO 1 Muestreo y estadística descriptiva 


Calcule la media, mediana y las medias recortadas a 5, 10 y 20 por ciento. 


Solución 

La media se encuentra promediando los 24 números, con base en ello se obtiene un valor de 
195.42. La mediana es el promedio del 12avo. y 13avo. números, que es (191 + 2232 = 
207.00. Para calcular la media recortada a 5%, debemos eliminar 5% de los datos de cada ex- 
tremo. Se obtienen (0.05)24 ) = 1.2 observaciones. Redondeamos 1.2 a 1 y recortamos una 
observación de cada extremo. La media recortada a 5% constituye el promedio de los 22 nú- 
meros restantes: 


715+79+---+274+ 384 
22 


= 190.45 


Para calcular la media recortada a 10%, redondee (0.1124) = 2.4 a 2. Elimine dos observa- 
ciones de cada extremo y después determine el promedio de las 20 restantes: 


79+80+-+-+254+ 274 


= 186.55 
20 


Para calcular la media recortada a 20%, redondee (0.2124) = 4.8 a 5. Elimine cinco obser- 
vaciones de cada extremo y después determine el promedio de las 14 restantes: 


105 + 126+---+242+245 
14 


= 194.07 


La moda y el rango 


La moda y el rango son resúmenes estadísticos de uso limitado, pero que en ocasiones se 
aprecian visualmente. La moda muestral es el valor que tiene más frecuencia en una muestra. 
Si algunos valores tienen una frecuencia igual, cada uno representa una moda. El rango es la 
diferencia entre los valores más grandes y más pequeños en una muestra. Es una medida de 
la dispersión, pero rara vez se usa, porque depende solamente de los dos valores extremos y 
no proporciona ninguna información acerca del resto de la muestra. 


Encuentre las modas y el rango para la muestra del ejemplo 1.12. 


Solución 
Hay tres modas: 80, 179 y 232. Cada uno de estos valores aparece dos veces y ningún otro 
valor aparece más de una vez. El rango es 470 — 30 = 440. 


Cuartiles 


La mediana divide la muestra a la mitad. Los cuartiles la dividen tanto como sea posible en 
cuartos. Una muestra tiene tres de aquéllos. Existen diferentes formas de calcular cuartiles, pe- 
ro todas dan aproximadamente el mismo resultado. El método más simple cuando se calcula 
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manualmente es el siguiente: Sea n el tamaño de la muestra. Ordene los valores de la muestra 
del más pequeño al más grande. Para encontrar el primer cuartil, calcule el valor 0.25(n + 1). 
Si éste es un entero, entonces el valor de la muestra en esa posición es el primer cuartil. Si no, 
tome entonces el promedio de los valores de la muestra de cualquier lado de este valor. El ter- 
cer cuartil se calcula de la misma manera, excepto que se usa el valor 0.75(n + 1). El segun- 
do cuartil usa el valor 0.5(n + 1). El segundo cuartil es idéntico a la mediana. Observe que 
algunos software usan métodos ligeramente diferentes para calcular cuartiles, por lo que sus 
resultados no pueden ser exactamente los mismos que los obtenidos por el método que aquí 
se describió. 


Encuentre el primer y tercer cuartil de los datos que se refieren al asfalto en el ejemplo 1.12. 


Solución 

El tamaño de la muestra es n = 24. Para encontrar el primer cuartil, calcule (0.25125) = 6.25. 
Por tanto, el primer cuartil se encuentra determinando el promedio del 60. y 70. puntos de da- 
tos, cuando la muestra se arregla en orden creciente. Se obtiene (105 + 126)/2 = 115.5. Pa- 
ra encontrar el tercer cuartil, calcule (0.751(25) = 18.75. Promediamos los puntos de los datos 
18avo. y 19avo., con lo que se obtiene (242 + 245)/2 = 243,5, 


Percentiles 


El p-ésimo percentil de una muestra, para un número p entre O y 100, divide a la muestra tan- 
to como sea posible, el p% de los valores de la muestra es menor que el p-ésimo percentil y 
el (100 — p)% son mayores. Hay muchas maneras para calcular los percentiles; con todas se 
obtienen resultados similares. Aquí se describe un método similar al método descrito para cal- 
cular cuartiles. Ordene los valores de la muestra del más pequeño al más grande y después 
calcule la cantidad (p/100)J(n + 1), donde n es el tamaño de la muestra. Si esta cantidad es un 
entero, el valor de la muestra en esta posición es el p-ésimo percentil. Por otro lado, prome- 
die los dos valores de la muestra en cualquier lado. Observe que el primer cuartil es el 25avo. 
percentil, la mediana es el 5S0avo. percentil y el tercer cuartil es el 75avo. percentil. Algunos 
software usan métodos ligeramente diferentes para el cálculo de los percentiles, así que sus 
resultados podrían ser un poco diferentes de los obtenidos por este método. 

Los percentiles con frecuencia se usan para interpretar puntajes de exámenes estanda- 
rizados. Por ejemplo, si a una estudiante se le informa que su puntaje en un examen de ingre- 
so a la universidad está en el 64avo. percentil, esto significa que 64% de los estudiantes que 
presentaron el examen obtuvo puntajes inferiores. 


Encuentre el 65avo. percentil de los datos del caso de asfalto en el ejemplo 1.12. 


Solución 

El tamaño de la muestra es n = 24. Para encontrar el 65avo. percentil, calcule (0.65)25) = 16.25. 
Por tanto, el 65avo. percentil se encuentra al determinar el promedio del 16avo. y 17avo. puntos 
de datos, cuando la muestra se arregla en orden creciente. Se obtiene (236 + 240)/2 = 238. 
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CAPÍTULO 1 Muestreo y estadística descriptiva 


En la práctica, con frecuencia un resumen estadístico como se ha descrito aquí se cal- 
cula en computadora, usando un software estadístico. El resumen estadístico de datos se co- 
noce como estadística descriptiva porque describe los datos. Presentamos un ejemplo del 
cálculo del resumen estadístico del software MINITAB. Después mostraremos cómo se pue- 
den usar estas estadísticas para descubrir algunas características importantes de los datos. 

Para su tesis doctoral, J. Yanowitz, de la Escuela de Minas, de Colorado, investigó los 
factores que afectan las emisiones de un vehículo diesel, obtuvo datos acerca de la emisión 
de partículas (EP) para una muestra de 138 vehículos conducidos en bajas altitudes (cerca del 
nivel del mar) y para una muestra de 62 vehículos conducidos a grandes altitudes (aproxima- 
damente a una milla del nivel del mar). Todos los vehículos se fabricaron entre 1991 y 1996. 
Las muestras contenían proporciones parecidas de vehículos de bajo y alto kilometraje. Los 
datos, en unidades de gramos de partículas por galón de combustible consumido, se presen- 
tan en las tablas 1.1 y 1.2. A grandes altitudes, la presión barométrica es más baja, así la ra- 
zón de eficiencia aire/combustible también es más baja. Por esta razón se pensó que la 
emisión de partículas podría ser mayor a grandes a altitudes. Nos gustaría comparar las mues- 
tras para determinar si los datos apoyan este supuesto. Es difícil hacer esto con sólo exami- 
nar los datos de las tablas. Calcular el resumen estadístico de los datos hace el trabajo mucho 
más fácil. La figura 1.4 presenta el cálculo con MINITAB de este resumen estadístico para 
ambas muestras. 


TABLA 1.1 Emisión de partículas (EP) (en g/gal) para 138 vehículos conducidos a altitud baja 


1.50 
1.48 
2.98 
1.40 
3.12 
0.25 
6.73 
5.30 
9.30 
6.96 
7.21 


0.87 
1.06 
7.39 
1.37 
2.37 
0.53 
7.82 
3.93 
6.50 
5.78 
4.67 


1.12 1,25 3.46 1.11 1.12 0.88 1.29 0.94 0.64 1.31 2,49 
1.11 2.15 0.86 1.81 1.47 1.24 1.63 2.14 6.64 404 2,48 
2.66 1100 457 4.38 0.87 1.10 1.11 0.61 1.46 0.97 0.90 
1.81 1.14 1.63 3.67 0.55 2.67 2.63 3.03 1.23 1.04 1.63 
2.12 2.68 1.17 3.34 3.79 1.28 2.10 6.55 1.18 3.06 0.48 
3.36 3.47 2.714 1.88 5.94 4.24 3.52 3.59 3.10 3:39 4.58 
4.59 5.12 5.67 4.07 4.01 2.72 3.24 5.79 3.59 3.48 2.96 
3.52 2.96 3.12 1.07 5.30 5.16 7.74 5.41 3.40 4.97 11.23 
4.62 5.45 4.93 6.05 5.82 10.19 3.62 2.67 2.75 8.92 9.93 
9.14 10.63 8.23 6.83 5.60 5.41 6.70 5.93 4.51 9.04 7.71 
4.49 4.63 2.80 2.16 2.97 3.90 


TABLA 1.2 Emisión de partículas (EP) (en g/gal) para 62 vehículos conducidos a gran altitud 


1.39 
2.06 
8.86 
8.67 
5.61 


6.28 
4.04 
4.40 
9.52 
1.50 


6.07 5.23 5.54 3.46 2.44 3.01 13.63 13.02 23.38 9.24 3.22 

17.11 1226 19.91 8.50 7.81 7.18 6.95 18.64 7.10 6.04 5.66 
3.57 4.35 3.84 2.37 3.81 5.32 5.84 2.89 4.68 1.85 9.14 
2.68 10.14 920 7.31 2.09 6.32 6.53 6.32 2.01 5.91 5.60 
6.46 5.29 5.64 2.07 1.11 3.32 1.83 7.56 
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Descriptive Statistics: LowAltitude, HiAltitude 


Variable N Mean SE Mea TrMean StDev 
LoA1titude 138 Sa 715 0.218 3.526 2.558 
HiAltitude 62 6.596 0.574 6.118 4.519 
Variable Minimum 01 Media 03 Maximum 
LoA1titude 0.250 1.468 3.180 5.300 11.230 
HiAltitude 1.110 3.425 5.750 7.983 23.380 


FIGURA 1.4 Resultados arrojados por MINITAB que presenta la estadística descriptiva 
para los datos de EP de las tablas 1.1 y 1.2. 


En la figura 1.4, la letra “N” denota el tamaño muestral. Enseguida está la media mues- 
tral. La siguiente cantidad (SE Mean) es el error estándar de la media. Este último es igual 
a la desviación estándar dividido entre la raíz cuadrada del tamaño muestral. Ésta es una can- 
tidad que no se usa mucho como una estadística descriptiva, aunque es muy importante en 
aplicaciones como la construcción de intervalos de confianza y pruebas de hipótesis, que se 
presentarán en los capítulos 5 y 6. Enseguida del error estándar de la media está la media re- 
cortada al 5% (TrMean) y la desviación estándar. Por último, en el segundo bloque de resul- 
tados se proporciona el mínimo, mediano y máximo, así como el primer y tercer cuartiles (Ql 
y Q3). Se observa que los valores de los cuartiles producidos por el software son ligeramen- 
te diferentes de los valores que se calcularían con los métodos que hemos descrito. Esto no es 
sorprendente, debido a que hay diferentes maneras de calcular estos valores. Las diferencias 
no son lo suficientemente grandes para que tengan alguna importancia práctica. 

El resumen estadístico indica muchas diferencias en las emisiones de EP entre los ve- 
hículos de gran y baja altura. Primero, observe que la media es efectivamente más grande pa- 
ra vehículos a gran altura que para vehículos de baja altura (6.60 contra 3.71), lo que apoya 
la hipótesis de que las emisiones tienden a ser mayores a grandes altitudes. Ahora observe que 
el valor máximo para vehículos en grandes altitudes (23.38) es mucho más grande que el va- 
lor máximo para vehículos a baja altitud (11.23). Esto muestra que hay uno o más vehículos 
a grandes altitudes, cuyas emisiones son mayores que la más alta de los vehículos de bajas al- 
titudes. ¿La diferencia en las medias de las emisiones podía ser atribuible totalmente a estos 
vehículos? Para contestar esto, compare las medianas, el primero y el tercer cuartil y la me- 
dia recortada. Estos estadísticos no están muy afectados por algunos valores grandes, todos 
son notablemente más grandes para los vehículos a grandes altitudes. Por tanto, podemos con- 
cluir que los vehículos a grandes altitudes no sólo tienen emisiones muy grandes, también en 
general tienen emisiones más grandes que los vehículos a baja altitud. Por último, observe que 
la desviación estándar es más grande para vehículos a grandes altitudes, lo que indica que los 
valores para vehículos a grandes altitudes están más dispersos que los de los vehículos a ba- 
jas altitudes. Al menos algo de la diferencia en la dispersión se debe a uno o más vehículos a 
gran altitud con emisiones muy altas. 
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E jemplo 


CAPÍTULO 1 Muestreo y estadística descriptiva 


Resumen estadístico para datos categórico 


Con datos categóricos, a cada elemento de la muestra se le asigna una categoría en lugar de 
un valor numérico. Es necesario trabajar con datos categóricos y resúmenes numéricos. Los 
dos más comunes son las frecuencias y las proporciones muestrales (algunas veces llama- 
das frecuencias relativas). La frecuencia para una categoría dada es sólo el número de ele- 
mentos de la muestra que cae dentro de esa categoría. La proporción muestral es la frecuencia 
dividida entre el tamaño de la muestra. 


Un proceso fabrica cojinetes de cigiieñal para un motor de combustión interna. Los cojinetes, 
cuyo espesor está entre 1.486 y 1.490 mm, se clasifican para ajustar, ello significa que satis- 
facen la especificación. Los cojinetes más gruesos se rectifican y los más angostos se descar- 
tan. En una muestra de mil cojinetes, 910 se ajustaron, 53 se rectificaron y 37 se descartaron. 
Encuentre las frecuencias y las proporciones muestrales. 


Solución 
Las frecuencias son 910, 53 y 37. Las proporciones muestrales son 910/1 000 = 0.910, 
53/1 000 = 0.053 y 37/1 000 = 0.037. 


Estadística muestral y parámetros poblacionales 


Cada uno de los estadísticos de la muestra que hemos analizado tiene una contraparte en la 
población. Esto es fácil de ver cuando la población es finita. Por ejemplo, para una población 
finita de valores numéricos, la media de la población es sólo el promedio de todos los valo- 
res de la población; la mediana es el valor de en medio, o el promedio de los dos valores de 
en medio, y así sucesivamente. En efecto, cualquier resumen numérico que se usa para una 
muestra se puede usar para una población finita, con sólo aplicar los métodos de cálculo a los 
valores de la población en lugar de a los valores de la muestra. Existe una pequeña excepción 
para la varianza de la población cuando se divide entre n en lugar de n —1. Existe una dife- 
rencia en la terminología que se usa para los resúmenes numéricos de las poblaciones con la 
que se usan para las muestras. Los resúmenes numéricos de una muestra se llaman estadísti- 
cos, mientras que los resúmenes numéricos de una población se llaman parámetros. Por su- 
puesto, en la práctica, nunca se observa toda la población por lo que los parámetros de 
población no se pueden calcular directamente. En cambio, los estadísticos de la muestra se 
usan para calcular los valores de los parámetros de la población. 

Los métodos para calcular los estadísticos de la muestra requieren que la muestra sea 
finita. Por tanto, cuando una población contiene un número infinito de valores, los métodos 
para calcular los estadísticos de una muestra no se pueden aplicar para calcular los paráme- 
tros de una población. Para poblaciones infinitas, los parámetros como la media y la varian- 
za se calculan con procedimientos que generalizan los métodos usados para calcular las 
estadísticas de una muestra y que implican sumas infinitas o integrales. Describiremos estos 
procedimientos en el capítulo 2. 
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Mm Un resumen numérico de una muestra se llama estadístico. 


m Un resumen numérico de una población se llama parámetro. 


E Con frecuencia los estadísticos se usan para estimar los parámetros. 


Ejercicios para la sección 1.2 


. Verdadero o falso: para cualquier lista de números, la mitad 


de ellos estará debajo de la media. 


¿Es la media de la muestra siempre el valor que ocurre con 
más frecuencia? Si es así, explique por qué. Si no, dé un 
ejemplo. 


. ¿Es la media de la muestra siempre igual a uno de los valo- 


res que está en la muestra? Si es así, explique por qué. Si 
no, dé un ejemplo. 


. ¿La mediana de la muestra siempre es igual a uno de los va- 


lores de la muestra? Si es así, explique por qué. Si no, dé un 
ejemplo. 


. Encuentre un tamaño de la muestra para el cual la mediana 


siempre sea igual a uno de los valores en la muestra. 


. En cierta compañía, cada trabajador recibió un aumento de 


$50 por semana. ¿Cómo afecta esto la media de los suel- 
dos? ¿Y la desviación estándar de los sueldos? 


. En otra compañía, cada trabajador recibió un aumento de 


5%. ¿Cómo afecta esto la media de los sueldos? ¿Y la des- 
viación estándar de los sueldos? 


El puntaje de Apgar se usa para evaluar reflejos y respues- 
tas de recién nacidos. A cada bebé un profesional de la me- 
dicina le asigna un puntaje y los valores posibles son 
enteros entre cero y diez. Se toma una muestra de mil bebés 
nacidos en cierto condado y el número con cada puntaje es 
el siguiente: 


Puntaje [0123 4 5 6 7 8 9 10 
Número |1 3 2 4 25 35 198 367 216 131 18 
de bebés 


10. 


11. 


a) Encuentre la media de la muestra de los puntajes de 
Apgar. 

b) Encuentre la desviación estándar de la muestra de los 
puntajes de Apgar. 

c) Encuentre la mediana muestral de los puntajes de 
Apgar. 

d) ¿Cuál es el primer cuartil de los puntajes? 

e) ¿Qué proporción de puntajes es más grande que la me- 
dia? 


£) ¿Qué proporción de puntaje es mayor en una desviación 


estándar que la media? 
8) ¿Qué proporción de puntaje está dentro de una desvia- 
ción estándar de la media? 


. Una clase de estadística con 40 estudiantes realizó una 


prueba. El puntaje posible más alto era de cuatro puntos. 
Diez estudiantes obtuvieron cuatro puntos, 12 lograron tres 
puntos, ocho alcanzaron dos puntos, seis se beneficiaron 
con un punto y cuatro obtuvieron cero puntos. Calcule la 
media, la mediana y la desviación estándar de los puntajes. 


Otra clase de estadística de 60 estudiantes realizó la misma 
prueba. En este clase, 15 estudiantes obtuvieron cuatro pun- 
tos, 18 alcanzaron tres puntos, 12 lograron dos puntos, nue- 
ve obtuvieron un punto y seis resultaron con cero puntos. 
Calcule la media, la mediana y la desviación estándar de los 
puntajes. 


En otra clase de estadística, el número total de estudiantes no 
se conoce. En esta clase, 25% obtuvo cuatro puntos, 30% al- 
canzó tres puntos, 20% se benefició con dos puntos, 15% lo- 
gró un punto y 10% resultó con cero puntos. 


a) ¿Es posible calcular la media de los puntajes para esta 
clase? Si es así, calcúlela. Si no, explique por qué. 

b) ¿Es posible calcular la mediana de los puntajes para esta 
clase? Si es así, calcúlela. Si no, explique por qué. 

c) ¿Es posible calcular la desviación estándar de la mues- 
tra de los puntajes para esta clase? Si es así, calcúlela. Si 
no, explique por qué. 
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Cada uno de los 16 estudiantes mide la circunferencia de 
una pelota de tenis por cuatro métodos diferentes, éstos fue- 
ron: 


Método A: Estimar la circunferencia a simple vista. 


Método B: Medir el diámetro con una regla y después cal- 
cular la circunferencia. 


Método C: Medir la circunferencia con una regla y cuerda. 


Método D: Medir la circunferencia haciendo rodar la pelo- 
ta a lo largo de una regla. 


Los resultados (en cm) son los siguientes, en orden crecien- 
te para cada método: 


Método A: 18.0, 18.0, 18.0, 20.0, 22.0, 22.0, 
24.0, 24.0, 25.0, 25.0, 25.0, 25.0, 26.0, 26.4. 


22.3, 23.0, 


Método B: 18.8, 18.9, 18.9, 19.6, 20.1, 20.4, 
20.4, 20.5, 21.2, 22.0, 22.0, 22.0, 22.0, 23.6. 


20.4, 20.4, 


Método C: 20.2, 20.5, 20.5, 20.7, 20.8, 20.9, 
21.0, 21.0, 21.0, 21.5, 21.5, 21.5, 21.5, 21.6. 


21.0, 21.0, 


Método D: 20.0, 20.0, 20.0, 20.0, 20.2, 20.5, 
20.7, 20.7, 21.0, 21.1, 21.5, 21.6, 22.1, 22.3. 


20.5, 20.7, 


a) Calcule la media de las mediciones para cada método. 

b) Calcule la mediana de las mediciones para cada método. 

c) Calcule la media recortada a 20% de las mediciones pa- 
ra cada método. 

d) Calcule el primero y el tercer cuartil para cada método. 

e) Calcule la desviación estándar de las mediciones para 
cada método. 

f) ¿En qué método es la desviación estándar más grande? 
¿Por qué se esperaría que este método tenga la desvia- 
ción estándar más grande? 


13. 


14. 


15. 


16. 


g) Sin que nada cambie ¿es preferible un método de medi- 
ción que tenga una desviación estándar más pequeña o 
uno con una desviación estándar más grande? ¿O no im- 
porta? Explique. 


Con referencia al ejercicio 12. 


a) Si las mediciones para uno de los métodos se convirtie- 
ran a pulgadas (1 pulgada = 2.54 cm), ¿cómo afectaría 
esto la media? ¿Y la mediana? ¿Y los cuartiles? ¿Y la 
desviación estándar? 

b) Si los estudiantes midieran nuevamente la pelota, usan- 
do una regla marcada en pulgadas, ¿los efectos sobre la 
media, la mediana, los cuartiles y la desviación estándar 
serían los mismos que los del inciso a)? Explique. 


Una lista de diez números tiene una media de 20, una me- 
diana de 18 y una desviación estándar de 5. El número más 
grande en la lista es 39.27. Accidentalmente, este número se 
cambia a 392.7. 


a) ¿Cuál es el valor de la media después del cambio? 

b) ¿Cuál es el valor de la mediana después del cambio? 

c) ¿Cuál es el valor de la desviación estándar después del 
cambio? 


¿Por qué nadie habla del cuarto cuartil? ¿O lo hacen? 


En cada uno de los siguientes conjuntos de datos, diga si el 
dato atípico parece ser atribuible a un error, o si se podría 
suponer que es correcto. 


a) Una roca se pesa cinco veces. Las lecturas en gramos 
son 48.5, 47.2, 4.91, 49.5, 46.3. 

b) Un sociólogo muestrea cinco familias en cierto pueblo y 
registra sus ingresos anuales. Los ingresos son $34 000, 
$57 000, $13 000, $12 00 000, $62 000. 
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1.3 Resúmenes gráficos 


Diagramas de tallo y hoja 


La media, mediana y la desviación estándar son resúmenes numéricos de una muestra o de una 
población. Los resúmenes gráficos también se usan para ayudar a visualizar una lista de núme- 
ros. El resumen gráfico del que hablaremos primero es el diagrama de tallo y hoja. Una grá- 
fica de tallos y hojas constituye una manera simple de resumir un conjunto de datos. 

Como ejemplo, los datos de la tabla 1.3 tratan del géiser Old Faithful en el parque na- 
cional Yellowstone. Este géiser alterna periodos de erupción, que duran normalmente de 1.5 
a cuatro minutos, con espacios de tiempo de inactividad, que son considerablemente más 
grandes. La tabla 1.3 presenta la duración, en minutos, de 60 periodos de inactividad. La lis- 
ta se presenta en orden numérico. 


TABLA 1.3 Duración (en minutos) de los periodos de inactividad del géiser Old Faithful 


42 45 49 50 51 51 51 51 53 39 
55 55 56 56 57 58 60 66 67 67 
68 69 70 71 72 73 73 74 75 75 
75 75 76 76 76 76 76 79 79 80 
80 80 80 8l 82 82 82 83 83 84 
84 84 85 86 86 86 88 90 91 93 


La figura 1.5 presenta un diagrama de tallos y hojas de los datos de géiser. Cada elemen- 
to de la muestra se divide en dos partes: un tallo, que consta de uno o dos dígitos que están en 
el extremo izquierdo, y la hoja, que consta del siguiente dígito significativo. En los datos del 
géiser, el tallo es el dígito de las decenas y las hojas, una unidad. Cada renglón del diagrama 
de tallos y hojas contiene todos los elementos de la muestra con un tallo dado. El diagrama de 
tallos y hojas es una forma compacta de representar los datos. También indica un poco su for- 
ma. Para los datos de géiser podemos ver que relativamente hay pocas duraciones en el inter- 
valo 60-69 minutos, comparado con los intervalos 50-59, 70-79 u 80-89 minutos. 
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FIGURA 1.5 Gráfica de tallo y hojas para los datos del géiser de la tabla 1.3. 


Cuando hay un gran número de elementos en la muestra con el mismo tallo, con fre- 
cuencia se necesita asignar más de un renglón a ese tallo. Por ejemplo, la figura 1.6 presenta 
una gráfica de tallos y hojas generada por computadora, con el software MINITAB, para los 
datos EP de la tabla 1.2 de la sección 1.2. La columna de en medio, que tiene los 0, 1 y 2, 
contiene los tallos, que son los dígitos de las decenas. A la derecha de los tallos están las ho- 
jas, que son los dígitos para cada uno de los elementos de la muestra. Como consecuencia de 
que muchos números son menores de 10, al tallo O se le deben asignar varios renglones, cin- 
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Stem-and-leaf of HiAltitude N = 62 
Leaf Unit = 1.0 

4 0 1111 

19 0 222222223333333 
(14) 0 44445555555555 
29 0 66666666777777 
15 0 8889999 

8 1 0 

7 1 233 

4 1 

4 1 7 

3 1 89 

1 2 

1 2 3 


FIGURA 1.6 Diagrama de tallos y hojas de los datos de EP de la tabla 1.2 de la sección 1.2 
generado por MINITAB. 


co en este caso. Específicamente, el primer renglón tiene los elementos de la muestra cuyos 
dígitos son 0 o 1, el renglón siguiente tiene los elementos cuyos dígitos son 2 o 3, y así suce- 
sivamente. Por consistencia, a todos los tallos se les asignan varios renglones del mismo mo- 
do, aunque sean pocos valores para los tallos 1 y 2, tallos que se podían haber hecho en pocos 
renglones. 

El resultado de la figura 1.6 contiene una columna de frecuencia acumulada a la izquier- 
da del diagrama de tallos y hojas. La parte superior de esta columna proporciona un recuen- 
to del número de elementos en o arriba del renglón actual y la parte más baja de la columna 
proporciona un recuento del número de elementos en o debajo del renglón actual. Después 
del renglón que contiene a la mediana mostrada entre paréntesis, se encuentra el recuento de 
elementos en este renglón. 

Una buena característica de los diagramas de tallo y hojas es que exhiben todos los va- 
lores de la muestra. Se puede reconstruir la muestra totalmente a partir de un diagrama de ta- 
llo y hojas, con una excepción importante: el orden con el cual se muestrearon los elementos 
no se puede determinar. 


Diagramas de puntos 


Un diagrama de puntos es un gráfico que se puede usar para tener una impresión aproximada 
de la forma de una muestra. Es útil cuando el tamaño de la muestra no es demasiado grande 
y cuando la muestra contiene algunos valores repetidos. La figura 1.7 presenta un diagrama 
de puntos para los datos del géiser de la tabla 1.3. Para cada valor de la muestra se dibuja una 
columna vertical de puntos, con el número de puntos de la columna igual al número que apa- 
rece el valor en la muestra. El diagrama de puntos da una buena indicación de dónde se con- 
centran los valores de la muestra y dónde hay separaciones. Por ejemplo, es evidente que en 
la figura 1.7 la muestra no tiene ningún periodo de inactividad entre los 61 y 65 minutos de 
duración. 

Los diagramas de tallo y hojas y los diagramas de puntos son buenos métodos para re- 
visar una muestra informalmente y se pueden dibujar bastante rápido con lápiz y papel. Sin 
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FIGURA 1.7 Diagrama de puntos para los datos del géiser de la tabla 1.3. 


embargo, éstos rara vez se usan en presentaciones formales. Los gráficos comúnmente usa- 
dos en las presentaciones formales son los histogramas y el diagrama de caja, que trataremos 
a continuación. 


Histogramas 


Un histograma es una gráfica que da una idea de la “forma” de una muestra, indicando las 
regiones donde los puntos de la muestra están concentrados y las regiones donde son escasos. 
Construiremos un histograma para las emisiones EP de 62 vehículos conducidos en una gran 
altitud, presentadas en la tabla 1.2 en la sección 1.2. El rango de la muestra va desde un mí- 
nimo 1.11 a un máximo de 23.38, en unidades de gramos de emisiones por galón de combus- 
tible. El primer paso es construir la tabla de frecuencias, que se muestra en la tabla 1.4. 


TABLA 1.4 Tabla de frecuencias para las emisiones EP de 62 vehículos 
conducidos a mayor altitud 


Intervalo de clase Frecuencia 
(g/gal) Frecuencia relativa Densidad 
1-< 3 12 0.194 0.0970 
3-< 5 11 0.177 0.0885 
S5-< 7 18 0.290 0.1450 
T<9 9 0.145 0.0725 
9-< 11 5 0.081 0.0405 
11-< 15 3 0.048 0.0120 
15-< 25 4 0.065 0.0065 


Los intervalos en la columna de la izquierda se llaman intervalos de clase. Dividen la 
muestra en grupos. La notación 1—< 3, 3—< 5 y así sucesivamente, indica que un punto que 
está en el límite entrará en la clase de su derecha. Por ejemplo, un valor de la muestra igual a 
3 entrará en la clase 3—< 5, y no en la 1—< 3. 

No hay ninguna regla ni difícil ni fácil respecto de cómo escoger los puntos finales de 
los intervalos de clase. En general, es bueno tener más intervalos en vez de menos, pero es 
también bueno tener un número grande de puntos de la muestra en los intervalos. Llegar al 
balance adecuado es una cuestión de criterio y de ensayo y error. En muchos casos es razo- 
nable tomar el número de intervalos de clase aproximadamente igual a la raíz cuadrada del ta- 
maño de la muestra. Para los datos EP, los intervalos de clase de dos unidades funcionan bien, 
excepto para valores más grandes (por ejemplo, mayores que 11), donde los datos se reducen. 
Por tanto, se han agrupado los valores entre 11 y 15 respecto de una clase y todos los valores 
superiores a 15 en otra clase. 

En la columna “Frecuencia”, en la tabla 1.4, se presentan los números de puntos de da- 
tos que están en cada uno de los intervalos de clase. En la columna “Frecuencia relativa” se 
presentan las frecuencias divididas entre el número total de puntos de datos, que para estos 
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datos es de 62. La frecuencia relativa de un intervalo de clase es la proporción de puntos de da- 
tos que están en el intervalo. Observe que debido a que cada punto de los datos está exacta- 
mente en un intervalo de clase, las frecuencias relativas deben sumar 1. Por último, en la 
columna “Densidad” se presenta la frecuencia relativa dividida entre el ancho de clase. Por 
ejemplo, en el primer renglón la frecuencia relativa es 0.194 y el ancho de clase es 2 (3 — 1 
= 2). Por tanto, la densidad es 0.194/2 = 0.0970. La última clase tiene un ancho de 10 y una 
frecuencia relativa de 0.063, por lo que su densidad es 0.065/10 = 0.0065. El propósito de la 
densidad es ajustar la frecuencia relativa con el ancho de la clase. Sin que nada cambie, las 
clases anchas tienden a contener más elementos de la muestra que las clases más angostas y, 
por consiguiente, tienden a tener frecuencias relativas más grandes. Al dividir la frecuencia 
relativa entre el ancho de la clase se ajusta esta tendencia. La densidad representa la frecuen- 
cia relativa por unidad. 

La figura 1.8 presenta el histograma para la tabla 1.4. Las unidades en el eje horizontal 
son las unidades de los datos, en este caso g/galón. Cada intervalo de clase se representa por 
un rectángulo. La altura de cada rectángulo es la densidad de la muestra en ese intervalo de 
clase, que está dado en la cuarta columna de la tabla 1.4. El área de cada rectángulo es, por 
tanto, la frecuencia relativa del intervalo de clase, que se encuentra en la tercera columna de 
la tabla 1.4. Debido a que las frecuencias relativas suman 1, el área bajo todo el histograma de- 
be ser igual a 1. 
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FIGURA 1.8 Histograma para las emisiones de EP para vehículos a gran altitud. La tabla de fre- 
cuencias se presenta en la tabla 1.4. 


Use el histograma de la figura 1.8 para determinar la proporción de los vehículos en la mues- 
tra con emisiones entre 7 y 11 g/galón. 


Solución 

La proporción representa el área bajo el histograma entre 7 y 11. Ésta se encuentra sumando 
las áreas cubiertas por los rectángulos de los dos intervalos de clase. El resultado es 
(2)(0.0725) + (2)(0.0405) = 0.226. Observe que este resultado también se puede obtener de 
la tabla de frecuencias. La proporción de puntos de datos con valores entre 7 y 9 es 0.145 y la 
proporción entre 9 y 11 es 0.081. La proporción entre 7 y 11 es, por tanto, igual a 0.145 + 
0.081 = 0.226. 
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Use el histograma para calcular la proporción de vehículos en la muestra con emisiones en- 
tre 6 y 10 g/galón. 


Solución 

El histograma no da la respuesta exacta, ya que los valores 6 y 10 no son los puntos finales 
de los intervalos de clase. Calculamos la proporción calculando el área bajo el histograma en- 
tre los valores 6 y 10. Éste consta de la mitad del área del rectángulo en el intervalo de 5 a 7, 
más todo el rectángulo en el intervalo de 7 a 9, más la mitad del rectángulo en el intervalo de 
9 a 11. El área es (1)(0.1450) + (2)(0.0725) + (1)(0.0405) = 0.3305. 


¿Cuál es la densidad de la muestra en 6 g/galón? 


Solución 
La densidad es la altura del histograma en ese punto. Esta altura es 0.1450. 


Para construir un histograma: 
mM Elija los puntos límite para los intervalos de clase. 
E Calcule las frecuencias y las frecuencias relativas para cada clase. 


E Calcule la densidad para cada clase, de acuerdo con la fórmula. 


frecuencia relativa 
intervalo de clase 


Densidad = 


Mm Dibuje un rectángulo para cada clase, cuya altura sea igual a la densidad. 


Anchos de clase iguales 


La mayoría de los software estadísticos dibujan histogramas y dan la opción de especificar los 
intervalos de clase o de tener el software elegido para usted. Cuando se pide elegir intervalos 
de clase, la mayoría de softwares los hacen todos con el mismo ancho. Por ejemplo, la figu- 
ra 1.9 presenta un histograma de los datos de la figura 1.8, con los intervalos de clase escogi- 
dos por MINITAB. Este último elige todos los intervalos con una anchura de dos. 

Para muchos conjuntos de datos, las anchuras de clases son iguales. Pero para datos co- 
mo éstos, con varios datos atípicos que se estiran a la derecha, los anchos de clases iguales 
son menos deseables. Para comprender por qué, considere que sólo siete puntos de datos de los 
62 tienen valores superiores a 11. En la figura 1.9, más de la mitad de los intervalos de clase 
están dedicados a estos siete puntos y forman una cadena de pequeños rectángulos de diferen- 
tes tamaños. Estos rectángulos tienen mucha estructura visual, que distrae de la parte más im- 
portante de la estructura en la que está la mayor parte de los datos a la izquierda. Por otra 
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FIGURA 1.9 Histograma para los datos de la figura 1.8, con anchos de clase iguales como 
los elige MINITAB. 


parte, el histograma en la figura 1.8 agrupa estos siete puntos en dos intervalos de clase, ello 
ofrece una apariencia más suave y permite apreciar mejor, a simple vista, la estructura del 
conjunto de datos como un todo. 


El histograma, la media muestral y la varianza 


Tanto la media como la varianza de la muestra tienen interpretaciones físicas con respecto al 
histograma. Imagine que el histograma de la figura 1.8 es una placa delgada que se sostiene 
sobre el eje horizontal. Suponga que la masa de cada rectángulo es proporcional a su área. La 
componente horizontal del centro de masa es el punto sobre el eje de x donde el histograma 
se balancearía si se apoyara allí. Para encontrar la componente horizontal del centro de masa 
del histograma, se trataría a cada rectángulo como si su masa estuviese concentrada en su 
punto medio. Se multiplicaría el punto medio de cada rectángulo por su área y al sumar los 
productos se obtiene el centro de masa. Los puntos medios de los rectángulos son los puntos 
medios de los intervalos de clases y las áreas representan las frecuencias relativas (véase la 
tabla 1.4). Por tanto, el centro de masa del histograma en la figura 1.8 está dado por 


(2)(0.194) + (4)(0.177) + - - - + (Q0)(0.065) = 6.730 (1.6) 


Este valor está bastante cerca de la media de la muestra, que es 6.596, como lo mostró el re- 
sultado de MINITAB (figura 1.4, en la sección 1.2). Para relacionar el centro de masa con la 
media de la muestra, observe que si cada elemento de la muestra tuviera un valor igual a la mi- 
tad de su intervalo de clase, entonces la expresión (1.6) sería igual a la media muestral. Por 
consiguiente, el centro de masa del histograma es una aproximación a la media muestral. Entre 
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más angosto sean los rectángulos, más cerca de cada elemento de la muestra estará el centro 
de su intervalo de clase y más cerca del centro de masa del histograma estará la media de la 
muestra. 

Con el propósito de desarrollar una interpretación física para la varianza de la muestra, 
imagine una varilla sólida que pasa verticalmente a través del centro de masa del histograma 
(media de la muestra). Ahora imagine que toma la varilla y que curva al histograma alrede- 
dor de ella. A mayor extensión del histograma, sería más difícil darle vuelta. La cantidad fí- 
sica que mide la dificultad para darle vuelta es el momento de inercia. Para cada rectángulo 
en el histograma, el momento de inercia con respecto al centro de masa está dado por el cua- 
drado de la distancia del punto medio del rectángulo al centro de masa, multiplicado por el 
área del rectángulo. El momento de inercia para todo el histograma es la suma de los momen- 
tos de los rectángulos, que es 


(2 — 6.730)(0.194) + (4 — 6.730)(0.177) + - ++ + (20 — 6.730'(0.065) = 20.25 (1.7) 


Este valor está cerca de la varianza de la muestra, que es 20.42. [La varianza de la muestra se 
puede encontrar en los resultados arrojados por MINITAB (figura 1.4, de la sección 1.2) al 
elevar al cuadrado la desviación estándar, que es 4.519.] Si el valor de cada elemento de la 
muestra fuera exactamente igual al punto medio de su intervalo de clase, la ecuación (1.7) da- 
ría exactamente la varianza muestral. Es decir, el momento de inercia del histograma con res- 
pecto al centro de masa es una aproximación de la varianza muestral. Entre más angostos sean 
los rectángulos, la aproximación será más cercana. 

El hecho de que la media y la varianza de la muestra correspondan a propiedades físi- 
cas del histograma es muy útil. En el capítulo 2 se desarrollarán métodos para calcular la me- 
dia y la varianza poblacional para una población infinita al representar a la población con una 
curva y calculando el centro de masa y el momento de inercia. 


Simetría y sesgo 

Un histograma es perfectamente simétrico si su mitad derecha es una imagen de espejo de su 
mitad izquierda. Los histogramas que no son simétricos se llaman sesgados. En la práctica, 
ninguna muestra de datos tiene un histograma perfectamente simétrico; todos presentan algún 
grado de sesgadura. En un histograma sesgado, un lado, o una cola, es más largo que el otro. 
Un histograma con una cola larga a la derecha se dice que está sesgado a la derecha o posi- 
tivamente sesgado. Un histograma largo con una cola larga a la izquierda se dice que está 
sesgado a la izquierda o negativamente sesgado. Aunque existe un método matemático for- 
mal para medir el sesgo de un histograma, rara vez se usa; en lugar de eso las personas juz- 
gan el grado de sesgadura informalmente al mirar el histograma. La figura 1.10 presenta 
algunos histogramas para muestras de datos hipotéticas. Observe que para que un histograma 
esté sesgado a la derecha (figura 1.10c), la media es mayor que la mediana, porque más de la 
mitad de los datos estarán a la izquierda del centro de masa. Del mismo modo, la media es 
menor que la mediana para un histograma sesgado a la izquierda (figura 1.10a). El histogra- 
ma para los datos de EP (figura 1.8) está sesgado a la derecha. La media de la muestra es 
6.596, que es mayor que la mediana de la muestra de 5.75. 
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Media Mediana Media Mediana Mediana Media 
a) b) c) 


FIGURA 1.10 a) Histograma sesgado a la izquierda, la media es menor que la mediana. b) Histograma casi simétrico, la me- 
dia y la mediana son aproximadamente iguales. c) Histograma sesgado a la derecha, la media es más grande que la mediana. 


Histogramas unimodales y bimodales 


Se ha usado el término “moda” para referirnos al valor que ocurre con más frecuencia en una 
muestra. Este término también se usa en histogramas y otras curvas para referirse a un pico o 
máximo local. Un histograma es unimodal si tiene solamente un pico, o moda, y bimodal si 
tiene evidentemente dos modas distintas. En principio, un histograma puede tener más de dos 
modas, pero esto no ocurre a menudo en la práctica. Los histogramas de la figura 1.10 son to- 
dos unimodales. La figura 1.11 presenta un histograma bimodal para una muestra hipotética. 


FIGURA 1.11 Histograma bimodal. 


En algunos casos, un histograma bimodal indica que la muestra se puede dividir en dos 
submuestras que son diferentes entre sí, en alguna manera científica. A cada muestra corres- 
ponde una de las modas. Como ejemplo, la tabla 1.5 presenta la duración de los 60 periodos 
de inactividad del géiser Old Faithful (originalmente presentadas en la tabla 1.3). Junto con 
las duraciones del periodo de inactividad, en minutos, la duración de la erupción inmediata- 
mente precedida por un periodo de inactividad se clasifica como breve (menos de tres minu- 
tos) o como larga (más de tres minutos). 
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TABLA 1.5 Duración de los periodos de inactividad (en minutos) y de las erupciones previas del géiser Old 


Faithful 
Inactividad  Erupción Inactividad  Erupción Inactividad  Erupción || Inactividad  Erupción 
76 Larga 90 Larga 45 Breve 84 Larga 
80 Larga 42 Breve 88 Larga 70 Larga 
84 Larga 91 Larga 51 Breve 79 Larga 
50 Breve 51 Breve 80 Larga 60 Larga 
93 Larga 79 Larga 49 Breve 86 Larga 
55 Breve 53 Breve 82 Larga 71 Larga 
76 Larga 82 Larga 75 Larga 67 Breve 
58 Breve 51 Breve 73 Larga sl Larga 
74 Larga 76 Larga 67 Larga 76 Larga 
75 Larga 82 Larga 68 Larga 83 Larga 
80 Larga 84 Larga 86 Larga 76 Larga 
56 Breve 53 Breve 7 Larga 55 Breve 
80 Larga 86 Larga 75 Larga 73 Larga 
69 Larga 51 Breve 75 Larga 56 Breve 
57 Larga 85 Larga 66 Breve 83 Larga 
La figura 1.12a presenta un histograma para las 60 duraciones. La figura 1.12b y c pre- 
senta histogramas para las duraciones de inactividad seguidas de erupciones breves y largas, 
respectivamente. El histograma para todas las duraciones es bimodal. Los histogramas para 
las duraciones seguidas de erupciones breves o largas son ambos unimodales y sus modas for- 
man las dos modas del histograma para toda la muestra. 
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FIGURA 1.12 a) Histograma para las 60 duraciones de la tabla 1.5. Este histograma es bimodal. b) Histograma para las 
duraciones de la tabla 1.5 que siguen a las erupciones breves. c) Histograma para las duraciones en la tabla 1.5 que siguen 
a las erupciones largas. Tanto los histogramas para las duraciones seguidas de erupciones breves como para los que le si- 
guen erupciones largas son unimodales, pero las modas están en lugares diferentes. Cuando las dos muestras se combinan, 
el histograma es bimodal. 
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Los histogramas tienen las propiedades siguientes: 


mM El área de cada rectángulo representa la proporción de la muestra que está en el 
intervalo de clase correspondiente. 


mM La altura de cada rectángulo representa la densidad de la muestra en el intervalo 
de clase correspondiente. 


m El área total bajo el histograma es igual a 1. 


mM La media muestral es casi igual al centro de masa del histograma. La 
aproximación se hace más cercana cuando se hacen rectángulos más angostos. 


E La varianza muestral es aproximadamente igual al momento de inercia del 
histograma con respecto a su centro de masa. La aproximación es más cercana 
cuando se hacen rectángulos más angostos. 


Haciendo las alturas iguales a las frecuencias 


En este libro se usa el término “histograma” para referirse a una gráfica en la que las alturas 
de los rectángulos representan las densidades (así las áreas representan las frecuencias relati- 
vas). Sin embargo, algunas personas dibujan histogramas con las alturas de los rectángulos 
iguales a las frecuencias. En efecto, éste es el método usual en muchos software. El hacer las 
alturas iguales a las frecuencias (o a las frecuencias relativas) puede producir una imagen dis- 
torsionada de los datos. Por ejemplo, la figura 1.13 presenta un histograma para los datos de 
EP en los que las alturas son iguales a las frecuencias, usando los mismos intervalos de clase 
que se muestran en el histograma de la figura 1.8. Este histograma exagera visualmente la 
proporción de vehículos en las dos clases más grandes. La razón de esto es que dichos inter- 
valos de clase son más amplios que el resto y el histograma no se ajusta a ese dato. 
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FIGURA 1.13 Histograma para la muestra de la tabla 1.4, con las alturas iguales a las frecuen- 
cias. El rectángulo grande sobre el intervalo 15-25 es engañoso; en efecto, solamente 6.5% de la 
muestra está en ese intervalo. Compárelo con el histograma dibujado correctamente en la figura 
1.8 de la página 28. 
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Si todos los intervalos de clase tienen el mismo ancho, entonces el histograma tendrá la 
misma forma si las alturas representan las densidades o las frecuencias. En este caso, hacer 
las alturas iguales a las frecuencias no es engañoso. Sin embargo, cuando se desea hacer in- 
tervalos de clase de anchos diferentes, es importante que las alturas de los rectángulos sean 
iguales a las densidades y no a las frecuencias o las frecuencias relativas. 

Por último, se indica que cuando las alturas sean iguales a las frecuencias o a las fre- 
cuencias relativas, el área total de los rectángulos no es en general igual a 1. Si todos los in- 
tervalos de clase tienen el mismo ancho, entonces la media muestral estará aproximadamente 
en el centro de masa; de otra forma generalmente no estará. 


Diagramas de caja 


Un diagrama de caja constituye una gráfica que incluye la mediana, el primero y el tercer 
cuartil y cualquier dato atípico que se presente en una muestra. Los diagramas de caja son fá- 
ciles de comprender, pero hay una pequeña terminología asociada con ellos. El rango inter- 
cuartil es la diferencia entre el tercer y el primer cuartil. Observe que debido a que 75% de los 
datos son menores que el tercer cuartil y que 25% de los datos son menores que el primer cuar- 
til, la mitad de los datos está entre el primero y el tercer cuartil. Por tanto, el rango intercuartil 
representa la distancia necesaria para atravesar la mitad de los datos de en medio. 

Se ha definido a los datos atípicos como puntos que son inusualmente grandes o peque- 
ños. Si denota IQR el rango intercuartil, entonces con el propósito de dibujar diagramas de 
caja, cualquier punto que está a más de 1.5 IQR por arriba del tercer cuartil, o que está a más 
de 1.5 IQR por debajo del primer cuartil, se considera un dato atípico. Algunos textos defi- 
nen a un punto que está a más de 3 IQR del primero o del tercer cuartil como un dato atípi- 
co extremo. Estas definiciones de datos atípicos son sólo convenciones para el dibujo de los 
diagramas de caja y no se necesitan usar en otras situaciones. 

La figura 1.14 presenta un diagrama de caja para algunos datos hipotéticos. El diagra- 
ma consta de una caja cuyo lado inferior es el primer cuartil y el lado superior es el tercer 
cuartil. La mediana se dibuja como una línea horizontal. Los datos “atípicos” se grafican por 
separado y se indican con cruces en la figura. Los que se extienden desde la parte superior a 
la inferior de la caja son líneas verticales llamadas “bigotes”. Éstos terminan en los puntos 
más extremos que no son atípicos. 
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FIGURA 1.14 Anatomía de un diagrama de caja. 
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Además de cualquier dato atípico, un diagrama de caja está formado por cuatro partes: 
las dos partes de la caja separadas por la línea de la mediana y los dos “bigotes”. Nuevamen- 
te, aparte de los datos atípicos, cada una de estas cuatro partes representa una cuarta parte de 
los datos. Por tanto, el diagrama de caja indica la longitud de un intervalo para cada cuarta 
parte de datos y de esta manera se puede usar para determinar las regiones en las que hay ma- 
yor y menor densidad de valores de la muestra. 


Pasos para la construcción de un diagrama de caja 


Hi Calcule la mediana, el primero y tercer cuartil de la muestra. Indique éstos con 
líneas horizontales. Dibuje líneas verticales para completar la caja. 


mM Encuentre el valor de la muestra más grande que no esté a más de 1.5 IQR arriba 
del tercer cuartil y el valor de la muestra más pequeño que no esté a más de 1.5 
IQR debajo del primer cuartil. Extienda líneas verticales (“bigotes”) desde las 
líneas de los cuartiles a estos puntos. 


E Puntos a más de 1.5 IQR arriba del tercer cuartil, o a más de 1.5 IQR por debajo 
del primer cuartil, se denominan datos atípicos. Dibuje cada dato atípico por 
separado. 


La figura 1.15 presenta un diagrama de caja para los datos del géiser que se presentó en 
la tabla 1.5. Primero observe que no hay ningún dato atípico en estos datos. Al comparar las 
cuatro partes del diagrama de caja, se puede decir que los valores de la muestra tienen casi la 
misma densidad de valores entre la mediana y el tercer cuartil y menos densidad entre la me- 
diana y el primer cuartil. El “bigote” más bajo es un poco más largo que el superior, lo que 
indica que los datos tienen la cola inferior ligeramente más larga que la cola superior. Como 
consecuencia de que la distancia entre la mediana y el primer cuartil es más grande que la que 
existe entre la mediana y el tercer cuartil y debido a que la cuarta parte inferior de los datos 
produce un “bigote” más largo que la cuarta parte superior, este diagrama de caja indica que 
los datos están sesgados a la izquierda. 
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FIGURA 1.15 Diagrama de caja para los datos de los periodos de inactividad del Old Faithful 
que se presentaron en la tabla 1.5. 
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Se presentó un histograma para estos datos en la figura 1.12a. El histograma presenta 
una impresión más general de la dispersión de los datos. En forma importante, el histograma 
indica que los datos son bimodales, lo que un diagrama de caja no puede hacer. 


Diagramas de caja comparativos 


Una ventaja muy importante de los diagramas de caja es que se pueden presentar varios jun- 
tos, ello permite la fácil comparación visual de las características de varias muestras. Las ta- 
blas 1.1 y 1.2 (en la sección 1.2) presentan datos de emisiones de EP para vehículos 
conducidos en grandes y bajas altitudes. La figura 1.16 presenta una comparación de los dos 
diagramas de caja de estas dos muestras. 
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FIGURA 1.16 Diagramas de caja comparativos para los datos de emisiones de EP para vehícu- 
los conducidos en altitudes grandes contra bajas. 


Los diagramas de caja comparativos en la figura 1.16 muestran que los vehículos con- 
ducidos a baja altitud tienden a tener emisiones inferiores. Además, hay algunos datos atípi- 
cos entre los datos para los vehículos en grandes altitudes, cuyos valores son superiores que 
cualquiera de los valores para los vehículos de baja altitud (también hay un valor de baja al- 
titud que apenas reúne las condiciones necesarias para considerarlo un dato atípico). Se con- 
cluye que a grandes altitudes, los vehículos tienen emisiones mayores en general y que 
cuando consideramos los datos atípicos es mucho mayor. La caja para vehículos a grandes al- 
titudes es un poco más grande y el “bigote” inferior es un poco más largo que para vehículos 
a baja altitud. Se concluye que además de los datos atípicos, la dispersión en los valores es li- 
geramente más grande para los vehículos a grandes altitudes y mucho más grande cuando se 
considera a los datos atípicos. 

En la figura 1.4 (en la sección 1.2) se comparan los valores de algunos estadísticos des- 
criptivos numéricos para estas dos muestras y se obtienen algunas conclusiones similares a 
las anteriores. La naturaleza visual de los diagramas de caja de la figura 1.16 hace las com- 
paraciones de las características de las muestras mucho más fácil. 
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Se ha mencionado que es importante examinar a los datos atípicos para determinar si 
son resultado de errores y, en tal caso, eliminarlos. Para identificar a los datos atípicos, pue- 
den ser útiles los diagramas de caja. El siguiente ejemplo proporciona un caso. 

El artículo “Virgin Versus Recycled Wafers for Furnace Qualification: Is the Expense 
Justified?” (V. Czitrom y J. Reece, en Statistical Case Studies for Industrial Process Impro- 
vement, ASA y SIAM, 1997:87-104) describe un proceso para el crecimiento de una capa del- 
gada de dióxido de silicio sobre placas de silicio que se usan en la fabricación de semicon- 
ductores. La tabla 1.6 presenta las mediciones del espesor, en angstroms (A), de la capa de 
óxido para 24 placas. Se hicieron nueve mediciones en cada placa. Las placas se fabricaron 
en dos corridas distintas, con 12 placas por cada corrida. 


TABLA 1.6 Espesor de las capas de óxido de silicio en placas de silicio 


Placa Espesor (A) 

Corrida 1 1 90.0 92.2 94.9 92.7 91.6 88.2 82.0 98.2 96.0 
2 91.8 94.5 93.9 77.3 92.0 89.9 87.9 92.8 93.3 
3 90.3 91.1 93.3 93.5 87.2 88.1 90.1 91.9 94.5 
4 92.6 90.3 92.8 91.6 92.7 91.7 89.3 95.5 93.6 
5 91.1 89.8 91.5 91.5 90.6 93.1 88.9 92.5 92.4 
6 76.1 90.2 96.8 84.6 93.3 95.7 90.9 100.3 95.2 
7 92.4 91.7 91.6 91.1 88.0 92.4 88.7 92.9 92.6 
8 91.3 90.1 95.4 89.6 90.7 93.8 91.7 97.9 95.7 
9 96.7 93.7 93.9 87.9 90.4 92.0 90.5 95.2 94.3 

10 92.0 94.6 93.7 94.0 89.3 90.1 91.3 92.7 94.5 
11 94.1 91.5 95.3 92.8 93.4 92.2 89.4 94.5 95.4 
12 91.7 97.4 95.1 96.7 77.5 91.4 90.5 95.2 93.1 

Corrida 2 1 93.0 99.9 93.6 89.0 93.6 90.9 89.8 92.4 93.0 
2 91.4 90.6 92.2 91.9 92.4 87.6 88.9 90.9 92.8 
3 91.9 91.8 92.8 96.4 93.8 86.5 92.7 90.9 92.8 
4 90.6 91.3 94.9 88.3 87.9 92.2 90.7 91.3 93.6 
5 93.1 91.8 94.6 88.9 90.0 97.9 92.1 91.6 98.4 
6 90.8 91.5 91.5 91.5 94.0 91.0 92.1 91.8 94.0 
7 88.0 91.8 90.5 90.4 90.3 91.5 89.4 93.2 93.9 
8 88.3 96.0 92.8 93.7 89.6 89.6 90.2 95.3 93.0 
9 94.2 92.2 95.8 92.5 91.0 91.4 92.8 93.6 91.0 

10 101.5 103.1 103.2 103.5 96.1 102.5 102.0 106.7 105.4 
11 92.8 90.8 92.2 91.7 89.0 88.5 87.5 93.8 91.4 
12 92.1 93.4 94.0 94.7 90.8 92.1 91.2 92.3 91.1 


Las 12 placas en cada corrida eran de varios tipos y se procesaron en diferentes posi- 
ciones en el horno. El propósito en la recopilación de datos fue determinar si el espesor de la 
capa de óxido se afectaba ya sea por el tipo de placa o por la posición en el horno. Por tanto, 
éste fue un experimento factorial, con los factores, tipo de placa y posición en el horno y co- 
mo resultado el espesor de la capa de óxido. El experimento se diseñó de tal manera que no 
se supuso ninguna diferencia sistemática entre las capas de una corrida a otra. El primer pa- 
so en el análisis fue construir un diagrama de caja para los datos de cada corrida con el pro- 
pósito de ayudar a determinar si esta condición se satisfacía realmente y si ninguna de las 
observaciones se debía eliminar. Los resultados se presentan en la figura 1.17. 
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FIGURA 1.17 Diagramas de caja comparativos para los datos del espesor de la capa de óxido. 


Los diagramas de caja muestran que había algunos datos atípicos en cada corrida. Ob- 
serve que, aparte de estos datos atípicos, no hay ninguna diferencia sorprendente entre las 
muestras y, por tanto, ninguna prueba de alguna diferencia sistemática entre las corridas. La 
siguiente tarea es inspeccionar los datos atípicos, para determinar cuál, si hay alguno, se de- 
be eliminar. Al examinar los datos de la tabla 1.6, se observa que las ocho mediciones más 
grandes en dos corridas ocurrieron en una sola placa: la número 10. 

Se determinó entonces que esta placa se había contaminado con un residuo de la pelí- 
cula, lo que ocasionó grandes mediciones del espesor. Por tanto, sería apropiado eliminar es- 
tas mediciones. En el experimento real, los ingenieros tenían a su disposición datos de algunas 
otras corridas y, por razones técnicas, decidieron eliminar toda la corrida, en vez de analizar 
una corrida a la que le faltaba una placa. En la corrida 1 se encontró que las tres mediciones 
más bajas se habían dado por un calibrador descompuesto y, por tanto, se eliminaron adecua- 
damente. No se pudo determinar ninguna causa para los dos datos atípicos restantes de la co- 
rrida 1, así que permanecieron en el análisis. 


Datos multivariados 


A veces los elementos de una población pueden tener algunos valores asociados entre sí. Por 
ejemplo, imagine que elige una muestra aleatoria de días y determine el promedio de la tem- 
peratura y de la humedad para cada día. Cada día la población proporciona dos valores, la 
temperatura y la humedad. Por tanto, la muestra aleatoria constaría de pares de números. Si 
las precipitaciones también se midieran todos los días, la muestra constaría de tripletes. En 
principio, se podría medir todos los días cualquier número de cantidades, lo que produciría 
una muestra en la que cada elemento representa una lista de números. 

Los datos para cada elemento que constan de más de un valor se llaman datos multi- 
variados. Cuando cada elemento es un par de valores, se dice que los datos son bivariados. 
Uno de los resúmenes gráficos más útiles por los datos bivariados numéricos es el diagrama 
de dispersión. Si los datos constan de pares arreglados (x,, y¡), . . . , (X,, y,), entonces un dia- 
grama de dispersión se construye sólo al trazar cada punto en un sistema coordenado bidi- 
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mensional. Los diagramas de dispersión también se pueden usar para resumir los datos mul- 
tivariados cuando cada elemento consta de más de dos valores. Simplemente se construirían 
diagramas de dispersión distintos para cada par de valores. 

El siguiente ejemplo muestra la utilidad de los diagramas de dispersión. El artículo “Ad- 
vances in Oxygen Equivalence Equations for Predicting the Properties of Titanium Welds” 
(D. Harwig, W. Ittiwattana y H. Castner, The Welding Journal, 2001:126s-136s) presenta los 
datos con respecto a la composición química y las características de la intensidad de diferen- 
tes soldaduras de titanio. La figura 1.18 presenta dos diagramas de dispersión. La figura 1.18a 
constituye un diagrama de la intensidad producida [en miles de libras por pulgada cuadrada 
(ksi)] contra el contenido de carbono (en %) para algunas de estas soldaduras. La figura 1.18b 
representa un diagrama de la intensidad producida (en ksi) contra el contenido de nitrógeno 
(en %) para las mismas soldaduras. 
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FIGURA 1.18 a) Un diagrama de dispersión que muestra que no existe mucha relación entre el contenido de carbono y la 
intensidad producida para determinado grupo de soldaduras. b) Un diagrama de dispersión que muestra que para estas mis- 
mas soldaduras el contenido de nitrógeno más alto está relacionado con la mayor intensidad producida. 


La gráfica de la intensidad producida contra contenido de nitrógeno (figura 1.18b) 
muestra con cierta claridad la estructura, los puntos parecen estar siguiendo una recta desde 
la parte izquierda más baja a la parte derecha superior. De este modo, la gráfica muestra una 
relación entre el contenido de nitrógeno y la intensidad producida: las soldaduras con más al- 
to contenido de nitrógeno tienden a tener una mayor intensidad producida. Este diagrama de 
dispersión podría conducir a que los investigadores intenten predecir la intensidad a partir del 
contenido de nitrógeno o que traten de aumentar el contenido de nitrógeno para incrementar 
la intensidad. (El hecho de que exista una relación en la gráfica de dispersión no garantiza que 
estos intentos tengan éxito, como se analizará en la sección 7.1.) Por otra parte, no parece ha- 
ber mucha estructura en la gráfica de dispersión de la intensidad producida contra el conteni- 
do de carbono y, por tanto, no hay evidencia de que exista una relación entre estas dos 
cantidades. Esta gráfica de dispersión desanimaría a los investigadores a tratar de predecir la 
intensidad a partir del contenido de carbono. 
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Ejercicios para la sección 1.3 


1. Parte de un estudio de control de calidad tuvo como objeti- parte de proteína recuperada para cada corrida. Los resulta- 
vo mejorar una línea de producción, se midieron los pesos dos son los siguientes: 
(en onzas) de 50 barras de jabón. Los resultados son los si- 


guientes, ordenados del más pequeño al más grande. ———_—_—_—_———— 
Método 1 Método 2 
11.6 12.6 12.7 12.8 13.1 13.3 13.6 13.7 13.8 14.1 0,32 0,25 
14.3 14.3 14.6 14.8 15.1 15.2 15.6 15.6 15.7 15.8 0.35 0.40 
15.8 15.9 15.9 16.1 16.2 16.2 16.3 16.4 16.5 16.5 ES pe 
16.5 16.6 17.0 17.1 17.3 17.3 17.4 17.4 17.4 17.6 042 056 
17.7 18.1 18.3 18.3 18.3 18.5 18.5 18.8 19.2 20.3 0.47 0.58 
0.51 0.60 
a) Construya un diagrama de tallos y hojas para estos da- 0.58 0.65 
(ok 0.60 0.70 
0.62 0.76 
b) Construya un histograma para estos datos. 0.65 0.80 
c) Construya un diagrama de puntos para estos datos. 0.68 0.91 
0.75 0.99 


d) Construya un diagrama de caja para estos datos. ¿El dia- 
grama de caja indica datos atípicos? 


a) Construya un histograma para los resultados de cada 


2. Siguiendo una lista del número de sitios de residuos peli- método. 


grosos en cada uno de los 50 estados federales de los Esta- 


dos Unidos en abril de 1995. Los datos se tomaron de The b) Construya diagramas de caja para comparar los dos mé- 


World Almanac and Book of Facts 1996 (World Almanac todos. 
Books, Mahwah, NJ, 1996). La lista se ha ordenado numé- c) Usando los diagramas de caja, ¿qué diferencias se ob- 
ricamente. servan entre los resultados de los dos métodos? 


12344568 8 9 5. Cada uno de los 32 estudiantes, que forman dos secciones 
10 10 10 11 11 11 1212 12 12 de laboratorio con 16 estudiantes cada una, calculó la cir- 
13 13 14 15 16 17 17 18 18 19 cunferencia de una pelota de tenis a simple vista. Aquí se 
19 20 22 23 24 25 29 30 33 37 muestran los resultados, en centímetros. (Los resultados pa- 
38 39 40 55 58 77 81 96 102 107 ra el primer grupo de estudiantes también se muestran en el 


ejercicio 12 de la sección 1.2.) 
a) Construya un diagrama de tallos y hojas para estos da- 


tos. K—_—_——____—_______—_—_—— 
G 1 G 2 
b) Construya un histograma para estos datos. de ed es 

c) Construya un diagrama de puntos para estos datos. in 180 
d) Construya un diagrama de caja para estos datos. ¿El dia- 18.0 18.0 
grama de caja muestra algún dato atípico? 20.0 19.0 
22.0 19.0 
3. Con referencia a la tabla 1.2 (p. 20). Construya un diagra- 22.0 19.0 
y hos 22.5 19.0 
ma de tallos y hojas con uno de los dígitos como tallo (pa- 230 19.5 
ra valores iguales o superiores a 10, el tallo tendrá dos 240 20.0 
dígitos) y el dígito de las decenas como hoja. ¿Cuántos ta- 24.0 20.0 
llos hay (asegúrese de incluir tallos deshojados)? ¿Cuáles 25.0 20.0 
son algunas de las ventajas y desventajas de este diagrama, 25.0 20.0 
comparado con el de la figura 1.6 (p. 26 )? 25.0 20.0 
25.0 22.0 
; z Ea , 26.0 24.0 
4. Se estudiaron dos métodos de recuperación de proteína. Se 26.4 250 


hicieron trece corridas usando cada método y se registró la 
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a) Construya un histograma para cada grupo. 


b) Construya diagramas de caja comparativos para los dos 
grupos. 


c) Usando diagramas de caja, ¿qué diferencias se pueden 
ver entre los resultados del primero y del segundo grupo? 


. Dibuje un histograma para el cual: 


a) La media es más grande que la mediana. 
b) La media es menor que la mediana. 


c) La media es aproximadamente igual a la mediana. 


. El siguiente histograma presenta la distribución de la pre- 


sión sanguínea sistólica para una muestra de mujeres. Use 
éste para responder las siguientes preguntas: 


a) ¿Es el porcentaje de mujeres con presión sanguínea su- 
perior a 130 mm cercano a 25, 50 o 75%? 


b) ¿En qué intervalo hay más mujeres: 130-135 o 140-150 
mm? 


c) En el intervalo 125-130 mm, la altura del histograma es 
de 0.024. ¿Qué porcentaje de mujeres tenía presión san- 
guínea en este intervalo? 


90 100 110 120 130 140 150 160 


Presión sanguínea (mm) 


El siguiente histograma presenta las cantidades de plata [en 
partes por millón (ppm)] encontradas en una muestra de ro- 
cas. Falta un rectángulo del histograma. ¿Cuál es su altura? 


Densidad 


10. 


0.35 


0.25 


Plata (ppm) 


. Una muestra de 100 hombres tiene una estatura promedio 


de 70 pulgadas y una desviación estándar de 2.5 pulgadas. 
Una muestra de 100 mujeres tiene una estatura promedio de 
64 pulgadas y desviación estándar de 2.5 pulgadas. Si se 
combinan ambas muestras, la desviación estándar de la es- 
tatura de las 200 personas será 


i) menor que 2.5 pulgadas 
ii) mayor que 2.5 pulgadas 
iii) igual a 2.5 pulgadas 


iv) no se puede decir a partir de la información dada. 


(Sugerencia: No realice ningún cálculo. Sólo trate de dibu- 
jar histogramas para cada muestra por separado, y después 
para la muestra combinada.) 


Los siguientes son diagramas de caja que comparan la car- 
ga [en coulombs entre mol (C/mol) x 107%] a pH 4.0 y a 
pH 4.5 para un conjunto de proteínas (del artículo “Optimal 
Synthesis of Protein Purification Processes”, E. Vasquez- 
Alvarez, M. Leinqueo y J. Pinto, en Biotechnology Progress 
2001:685-695). Verdadero o falso: 

a) La mediana de la carga para el pH 4.0 es mayor que el 
75avo. percentil de la carga para el pH 4.5. 


b) Aproximadamente 25% de las cargas para el pH 4.5 son 


menores que la carga más pequeña en el pH 4.0. 


c) 


Cerca de la mitad de los valores de la muestra para el pH 
4.0 están entre 2 y 4. 


d) Hay una proporción mayor de valores fuera de la caja 


para el pH 4.0 que para el pH 4.5. 


e) Ambas muestras están sesgadas a la derecha. 


f) Ambas muestras contienen datos atípicos. 


12 
10 
8 
5b 
36 
¡O) 
4 
2 
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11. Los siguientes son resúmenes estadísticos para dos conjun- 


tos de datos, A y B. 


a) 


b) 


(6) 


A B 
Mínimo 0.066 2235 
ler. cuartil 1.42 5,21 
Mediana 2.60 8.03 
3er. cuartil 6.02 9.13 
Máximo 10.08 10.51 


Calcule los rangos intercuartiles tanto para A como pa- 
ra B. 


¿Los resúmenes estadísticos para A proporcionan sufi- 
ciente información para construir un diagrama de caja? 
Si es así, construya el diagrama de caja. Si no, explique 
por qué. 


¿Los resúmenes estadísticos para B proporcionan la su- 
ficiente información para construir un diagrama de caja? 
Si es así, construya el diagrama de caja. Si no, explique 
por qué. 


12. Relacione cada histograma con el diagrama de caja que representa el mismo conjunto de datos. 


13. Refiérase a los datos de asfalto en el ejemplo 1.12 (p. 17). 


a) 
b) 
c) 
d) 


a) b) 


(1) (2) 


Construya un diagrama de caja para los datos de asfalto. 
¿Qué valores, si los hay, son atípicos? 
Construya una gráfica de puntos para los datos de asfalto. 

Con el fin de construir diagramas de caja, se define un dato atípico como un punto cuya distancia al cuartil más cercano es 
mayor a 1.5 IQR. Una definición más general y menos precisa es que un dato atípico es cualquier punto que está separado 
de la mayor parte de los datos. ¿Hay puntos en el conjunto de datos del asfalto que son datos atípicos bajo esta definición 
más general, pero no bajo la definición del diagrama de caja? ¿Si es así, cuáles son? 


Cc) d) 


(5) (4) 
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14. Relacione cada diagrama de dispersión con el enunciado que lo describa mejor. 


15. 


12 12 
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10 10 
o 
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1) La relación entre x y y es casi lineal. 

ii) La relación entre x y y no es lineal. 

iii) No hay mucho que relacione a x con y. 

iv) La relación entre x y y es casi lineal, menos un dato atípico. 


Para los siguientes datos: 


x|1.4 2.4 4.0 495.7 6.3 7.8 90 9.3 11.0 
y|2.3 3.7 5.7 9.9 6.9 15.8 15.4 36.9 34.6 53.2 


a) Realice una gráfica de dispersión de y contra x. ¿Es la relación entre x y y casi lineal, o no lo es? 

b) Calcule el logaritmo natural de cada valor de y. Esto se conoce como hacer una transformación de log de y. Realice una 
gráfica de dispersión de In y contra x. ¿La relación entre x y In y es casi lineal, o no lo es? 

c) En general, es más fácil trabajar con cantidades que tienen una relación lineal aproximada que con cantidades que no tie- 
nen una relación lineal. ¿Para estos datos, pensaría que es más fácil trabajar con x y y o con x y In y? Explique. 


Ejercicios adicionales para el capítulo 1 


1. 


Una vendedora convierte los pesos de los paquetes que ven- 
de de libras a kilogramos (1 kg = 2.2 1b). 


a) ¿Cómo afecta esto la media del peso de los paquetes? 


b) ¿Cómo afecta esto la desviación estándar de los pesos? 


Con referencia al ejercicio 1. La vendedora empieza a usar 
un empaquetado más pesado, lo que aumenta el peso de ca- 
da paquete en 50 gramos. 


a) ¿Cómo afecta esto a la media del peso de los paquetes? 


b) ¿Cómo afecta esto a la desviación estándar de los pesos? 


Los circuitos integrados constan de canales eléctricos que 
están grabados en placas de silicio. Cierta proporción de 
circuitos está defectuosa debido al “corte sesgado”, lo que 
sucede cuando se graba demasiado material lejos de los ca- 
nales, ello da como resultado partes no grabadas en las pla- 
cas, que son demasiado angostas. Se está investigando un 
proceso rediseñado que implica presión más baja en la cá- 
mara de grabado. El objetivo es reducir la tasa de corte sesga- 
do a menos de 5%. De los primeros 100 circuitos fabricados 
por el nuevo proceso, solamente cuatro indican evidencias 
de corte sesgado. Verdadero o falso: 


a) Debido a que solamente 4% de los 100 circuitos tenían 
corte sesgado, se puede concluir que se ha alcanzado el 
objetivo. 


b) Aunque los porcentajes de la muestra están debajo de 
5%, esto podría representar la variación del muestreo, así 
que es posible que el objetivo aún no se ha alcanzado. 


c) No hay caso en evaluar el nuevo proceso, porque no im- 
porta cuál es el resultado, podía sólo atribuirse a la va- 
riación del muestreo. 


d) Si muestreamos un número lo suficientemente grande 
de circuitos y si los porcentajes de circuitos defectuosos 
están suficientemente por abajo de 5%, entonces es ra- 
zonable concluir que se ha alcanzado el objetivo. 


Se lanza una moneda dos veces y cae “cara” ambas veces. 
Alguien dice: “Hay algo deshonesto en esta moneda. Se su- 
pone que una moneda cae cara sólo la mitad de las veces y 
no siempre.” 


a) ¿Es razonable concluir que la moneda es deshonesta? 
Explique. 
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b) Si al lanzar la moneda caen 100 “caras” consecutivas, 
¿es razonable concluir que la moneda es deshonesta? 
Explique. 


El número más pequeño en una lista se cambia de 12.9 a 
1.29. 


a) ¿Es posible determinar cuánto cambia la media? Si es 
así, ¿en cuánto cambia? 


b) ¿Es posible determinar cuánto cambia la mediana? Si es 
así, ¿en cuánto cambia? ¿Qué pasa si la lista consta de 
solamente dos números? 


c) ¿Es posible determinar cuánto cambia la desviación es- 
tándar? Si es así, ¿cuánto cambia? 


Hay 15 números en una lista y el número más pequeño se 
cambia de 12.9 a 1.29. 


a) ¿Es posible determinar cuánto cambia la media? Si es 
así, ¿cuánto cambia? 


b) ¿Es posible determinar el valor de la media después del 
cambio? Si es así, ¿cuál es el valor? 


c) ¿Es posible determinar cuánto cambia la mediana? Si es 
así, ¿cuánto cambia? 


d) ¿Es posible determinar cuánto cambia la desviación es- 
tándar? Si es así, ¿cuánto cambia? 


Hay 15 números en una lista y la media es 25. El número 
más pequeño en la lista se cambia de 12.9 a 1.29. 


a) ¿Es posible determinar cuánto cambia la media? Si es 
así, ¿cuánto cambia? 


b) ¿Es posible determinar el valor de la media después del 
cambio? Si es así, ¿cuál es el valor? 


c) ¿Es posible determinar cuánto cambia la mediana? Si es 
así, ¿cuánto cambia? 


d) ¿Es posible determinar cuánto cambia la desviación es- 
tándar? Si es así, ¿cuánto cambia? 


El artículo “The Selection of Yeast Strains for the Produc- 
tion of Premium Quality South African Brandy Base Pro- 
ducts” (C. Steger y M. Lambrechts, Journal of Industrial 
Microbiology and Biotechnology, 2000:431-440) presenta 
información detallada acerca de la composición compuesta 
volátil de la base de vinos hechos para cada una de las 16 
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clases de levadura seleccionadas. Las siguientes son las 
concentraciones de ésteres totales (en mg/L) en cada uno de 
los vinos. 


284.34 173.01 229.55 312.95 215.34 188.72 
144,39 172.79 139.38 197.81 303.28 256.02 
658.38 105.14 295.24 170.41 

a) Calcule la media de la concentración. 

b) Calcule la mediana de la concentración. 

c) Calcule el primer cuartil de las concentraciones. 

d) Calcule el tercer cuartil de las concentraciones. 


e) Construya un diagrama de caja para las concentracio- 
nes. ¿Qué características revela? 


. Con respecto a los datos que se representan en el siguiente 


diagrama de caja, ¿cuál de los enunciados siguientes es ver- 
dadero? 


i) La media es más grande que la mediana. 
11) La media es menor que la mediana. 


iii) La media es aproximadamente igual a la mediana. 


% 


== 


Verdadero o falso: en cualquier diagrama de caja, 


a) La longitud de los “bigotes” es igual a 1.5 IQR, donde 
el IQR es el rango intercuartil. 


b) La longitud de los “bigotes” podría ser más grande que 
1.5 IQR, donde el IQR es el rango intercuartil. 


c) La longitud de los “bigotes” podría ser menor que 1.5 
IQR, donde el IQR es el rango intercuartil. 


d) Los valores en los extremos de los “bigotes” son siem- 
pre valores del conjunto de datos que se usan para cons- 
truir el diagrama de caja. 


Para cada uno de los histogramas siguientes, determine si el 
eje vertical ha sido etiquetado correctamente. 


Densidad 


Densidad 


Densidad 


Densidad 


0.15 


0.1 
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12. 


13. 


14. 


En el artículo “Occurrence and Distribution of Ammonium 
in lowa Groundwater” (K. Schilling, Water Environment 
Research, 2002:177-186), se midieron concentraciones de 
amonio (en mg/L) en un total de 349 pozos aluviales en el 
estado de lowa. La media de la concentración fue de 0.27, 
la mediana fue de 0.10 y la desviación estándar fue de 0.40. 
Si se dibujara un histograma con estas 349 mediciones, 


i) estaría sesgado a la derecha. 
ii) estaría sesgado a la izquierda. 
iii) sería aproximadamente simétrico. 


iv) su forma no se podría determinar sin conocer las fre- 
cuencias relativas. 


En el artículo “Vehicle-Arrival Characteristics at Urban Un- 
controlled Intersections” (V. Rengaraju y V. Rao, Journal of 
Transportation Engineering, 1995:317-323) se presentan 
los datos sobre las características de tráfico en diez cruceros 
en Madras, India. Una de las características medidas fueron 
las velocidades de los vehículos que se desplazaban por los 
cruceros. La tabla siguiente da 15avo., 50avo. y 85avo. per- 
centiles de la velocidad (en km/h) para dos cruceros. 


Percentil 
Intersección 15avo. 50avo. 85avo. 
A 219 37.5 40.0 
B 24.5 26.5 36.0 


a) Si se hubiera dibujado un histograma para las velocida- 
des de vehículos que pasan a través de la intersección A, 
¿pensaría que está sesgado a la izquierda, sesgado a la 
derecha, o casi simétrico? Explique. 


b) Si se hubiera dibujado un histograma para las velocida- 
des de vehículos que pasan a través de la intersección B, 
¿pensaría que está sesgado a la izquierda, sesgado a la 
derecha, o casi simétrico? Explique. 


La frecuencia acumulada y la frecuencia relativa acumulada 
para un intervalo de clase dado son las sumas de las frecuen- 
cias y las frecuencias relativas, respectivamente, sobre todas 
las clases, incluyendo la clase dada. Por ejemplo, si hay cin- 
co clases, con frecuencias 11, 7, 3, 14 y 5, las frecuencias 
acumulativas serían 11, 18, 21, 35 y 40, y las frecuencias re- 
lativas acumulativas serían 0.275, 0.450, 0.525, 0.875 y 
1.000. Construya una tabla para presentar las frecuencias, 
las frecuencias relativas y las frecuencias relativas acumula- 
das, para los datos del ejercicio 1 de la sección 1.3, usando 
los intervalos de clase 11 —< 12,12 —<13,...,20-—<21. 
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15. El artículo “Computing and Using Rural versus Urban 


16. 


Measures in Statistical Applications” (C. Goodall, K. Kafa- 
dar y J. Tukey, The American Statistician, 1998:101-111) 
analiza los métodos para medir el grado a los cuales los 
condados de los Estados Unidos son urbanos más que rura- 
les. La siguiente tabla de frecuencias presenta las frecuen- 
cias de población de los condados de los Estados Unidos. 
Las poblaciones están en la escala log); por consiguiente, el 
primer intervalo contiene condados cuyas poblaciones son 
al menos de 2 = 64, pero menores que 22* = 5 404 y así 
sucesivamente. 


log, de la Núm. de 
población condados 
6.0-< 12.4 305 
12.4-< 13.1 294 
13.1-< 13.6 331 
13.6-< 14.0 286 
14.0-< 14.4 306 
14.4-< 14.8 273 
14.8-< 15.3 334 
15.3-< 16.0 326 
16.0-< 17.0 290 
17.0-< 23.0 323 


a) Construya un histograma a partir de la tabla de frecuen- 
cias. 


b) Calcule la proporción de condados cuyas poblaciones 
son mayores a cien mil. 


c) ¿Está el histograma sesgado a la izquierda, a la derecha, 
O Casi simétrico? 


d) Construya un histograma usando las poblaciones reales 
en vez de su logaritmo. ¿Por qué piensa usted que el ar- 
tículo transformó las poblaciones a la escala logarítmi- 
ca? 


El artículo “Hydrogeochemical Characteristics of Ground- 
water in a Mid-Western Coastal Aquifer System” (S. Jeen, 
J. Kim y colaboradores, Geosciences Journal, 2001:339-348) 
presenta las mediciones de las propiedades de algunas 
aguas subterráneas poco profundas en cierto sistema de 
acuífero de Corea. Las siguientes son las mediciones de la 
conductividad eléctrica (en microsiemens por centímetro) 
para 23 muestras de agua. 


2099 528 2030 1350 1018 384 1499 

1265 375 424 789 810 522 313 
488 200 215 486 257 557 260 
461 500 


a) Encuentre la media. 


b) Encuentre la desviación estándar. 
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c) Encuentre la mediana. 

d) Construya una gráfica de puntos. 

e) Encuentre la media recortada a 10%. 

f) Encuentre el primer cuartil. 

£g) Encuentre el tercer cuartil. 

h) Encuentre el rango intercuartil. 

i) Construya un diagrama de caja. 

J) ¿Cuáles puntos, si los hay, son atípicos? 


k) Si se hubiera construido un histograma, ¿estaría sesga- 
do a la izquierda, sesgado a la derecha, o casi simétrico? 


La falta de agua ha sido tradicionalmente una preocupación 
muy importante en las Islas Canarias. Los derechos sobre el 
agua se dividen en acciones, que son posesión privada. El 
artículo “The Social Construction of Scarcity. The Case of 
Water in Tenerife (Canary Islands)” (F. Aguilera-Klink, E. 
Pérez-Moriana, y J. Sánchez-García, Ecological Econo- 
mics, 2000:233-245) analiza que la extensión de muchas de 
las acciones están concentradas entre pocos propietarios. La 
tabla siguiente presenta el número de propietarios que po- 
seen diferentes números de acciones. (Había 15 propietarios 
que poseían 50 acciones o más; que se han omitido.) Obser- 
ve que es posible poseer un número no entero de acciones; 
por ejemplo, el intervalo 2—< 3 contiene 112 personas que 
poseían al menos dos pero menos de tres acciones. 


Número de Número de 
acciones propietarios 
0-< 1 18 
1-< 2 165 
2-< 3 112 
3-< 4 87 
4-< 5 43 
5-< 10 117 
10-< 15 51 
15-< 20 32 
20-< 25 10 
25-< 30 8 
30-< 50 8 


a) Construya un histograma para estos datos. 


b) Aproxime la mediana del número de acciones poseídas 
encontrando el punto para el cual las áreas de cualquier 
lado son iguales. 


c) Aproxime el primer cuartil del número de acciones po- 
seídas encontrando el punto para el cual 25% del área 
está a la izquierda. 


d) Aproxime el tercer cuartil del número de acciones po- 
seídas encontrando el punto para el cual 75% del área 
está a la izquierda. 


e) Aproxime la media del número de acciones poseídas 
calculando el centro de masa del histograma. 


f) Aproxime la varianza del número de acciones poseídas 


calculando el momento de inercia con respecto a la me- 
dia, bajo el supuesto de que toda la masa de un rectán- 
gulo está concentrada en su punto medio. 


18. El informe del editor, en noviembre de 2003, de la edición 


de Technometrics proporciona la siguiente información res- 
pecto de la cantidad de tiempo que le toma revisar artículos 
que fueron presentados para su publicación durante 2002. 
Para propósitos computacionales, interprete la última cate- 
goría (> 9) como 9 —< 15. 


Tiempo Número de 
(meses) artículos 
0-< 1 45 
1-< 2 17 
2-< 3 18 
3-<4 19 
4-<5 12 
5-<6 14 
6-< 7 13 
T-< 8 22 
8-< 9 11 

>9 18 


a) Construya un histograma para estos datos. 


b) Aproxime la mediana del tiempo de revisión encontran- 
do el punto para el cual las áreas en cualquier lado son 
iguales. 


Cc) Aproxime el primer cuartil de los tiempos de revisión, 
encontrando el punto para el cual 25% del área está a la 
izquierda. 


d) Aproxime el tercer cuartil del tiempo de revisión encon- 
trando el punto para el que 75% del área está a la iz- 
quierda. 


e) Aproxime la media del tiempo de revisión calculando el 
centro de masa del histograma. 


f) Aproxime la varianza del tiempo de revisión, calculando 


el momento de inercia con respecto a la media, supo- 
niendo que toda la masa de un rectángulo está concen- 
trada en su punto medio. 
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19. En el artículo “The Ball-on-Three-Ball Test for Tensile 
Strength: Refined Methodology and Results for Three Ho- Tipo de cerámica Cargas (kg) 
hokam Ceramic Types (M. Beck, Aeterona Amelia con 15, 30, 51, 20, 17, 19, 20, 
2002:558-569) se analiza la resistencia de la cerámica anti- 

j 34, 17, 15, 23, 19, 15, 18, 

gua. Se evaluaron algunas muestras de cada uno de tres ti- 16. 22. 29, 15, 13, 15 
pos de cerámica. Las cargas (en kg) requeridas para romper A 
las muestras son las que aparecen en la tabla de la siguiente 
columna. 


Planicie del río Gila 27, 18, 28, 25, 55, 21, 18, 
34, 23, 30, 20, 30, 31, 25, 
28, 26, 17, 19, 16, 24, 19, 
9,31, 19, 27, 20, 45, 15 
a) Construya diagramas de caja comparativos para las tres 
muestras. Casa Grande 20, 16, 20, 36, 27, 35, 


b) ¿Cuántos datos atípicos contiene cada muestra? 66, 15, 18, 24, 21, 30, 
sm 20, 24, 23, 21, 13, 21 
c) Comente acerca de las características de las tres muestras. 


Capítulo 


Probabilidad 


Introducción 


El desarrollo de la teoría de la probabilidad fue financiada por apostadores en el siglo XvuH, 
quienes contrataron a algunos matemáticos famosos para que calculasen la probabilidad co- 
rrecta de ciertos juegos de azar. Con el tiempo, la gente se dio cuenta de que los procesos cien- 
tíficos también son azarosos y desde entonces se han empleado métodos de probabilidad para 
estudiar el entorno físico. 

Actualmente, la probabilidad constituye una gran rama de las matemáticas. Existen mu- 
chos libros al respecto y numerosos investigadores han dedicado bastante de su tiempo con el 
propósito de ampliar su desarrollo. En este capítulo se presenta una introducción de los con- 
ceptos de probabilidad más relevantes para el estudio de la estadística. 


2.1 Ideas básicas 
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Para realizar un estudio sistemático de probabilidad, se necesita cierta terminología. Un ex- 
perimento constituye un proceso con un resultado que no se puede predecir certeramente con 
anterioridad. El hecho de lanzar una moneda al aire, arrojar un dado, medir el diámetro de un 
perno, pesar los contenidos de una caja de cereal, o medir la resistencia de una cuerda de pes- 
car, son ejemplos de experimentos. Con la finalidad de analizar un experimento en términos 
probabilísticos, se debe especificar sus posibles resultados. 


Definición 


Al conjunto de todos los posibles resultados de un experimento se le llama espacio 
muestral. 


” « 


Al lanzar al aire una moneda se puede utilizar el conjunto (“caras”, “cruces”) como el 
espacio muestral. Para arrojar un dado de seis caras, se puede usar al conjunto (1, 2, 3, 4, 5, 
6). Estos espacios muestrales son finitos. Algunos experimentos tienen espacios muestrales 
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con un número infinito de resultados. Por ejemplo, imagine que un buril con diámetro de 10 
mm hace perforaciones en una lámina de metal. Debido a las variaciones en el ángulo de la 
perforación y a los pequeños movimientos en la lámina de metal, los diámetros de los aguje- 
ros varían entre 10 y 10.2 mm. Por tanto, para el experimento de perforación sería razonable 
un espacio muestral que esté en el intervalo (10.0, 10.2), o en notación de conjuntos, (x| 10.0 
< x< 10.2). Obviamente, este conjunto contiene un número infinito de resultados. 

En muchos experimentos se puede escoger entre diversos espacios muestrales. Por 
ejemplo, suponga un proceso que produce clavos de acero cuyas longitudes varían entre 5.20 
y 5.25 cm. Una opción obvia para el espacio muestral de la longitud de un clavo sería el con- 
junto (x]5.20< x< 5.25). Sin embargo, si el objetivo fuera simplemente determinar si el cla- 
vo es demasiado corto, demasiado largo o está dentro de ciertos límites específicos, una buena 
elección sería que el espacio muestral fuera (demasiado corto, demasiado largo, dentro de las 
especificaciones). 

Con frecuencia, al estudiar experimentos, se está interesado en un subconjunto particu- 
lar de resultados. Por ejemplo, se puede tener interés en la probabilidad de que un dado cai- 
ga en un número par. El espacio muestral para el experimento es (1, 2, 3, 4, 5, 6] y el 
correspondiente a que caiga en un número par es el subconjunto (2, 4, 6). En el ejemplo del 
buril usado para perforar, se puede tener interés en la probabilidad de que un hueco tenga un 
diámetro menor a 10.1 mm. Esto último corresponde al subconjunto fx | 10.0 < x< 10.1]. 
Existe un nombre especial para el subconjunto de un espacio muestral: 


Definición 


Un subconjunto de un espacio muestral se denomina evento. 


Observe que para cualquier espacio muestral, el conjunto vacío () es un evento, como lo es 
todo el espacio muestral. Se dice que un evento ocurrió si el resultado del experimento es al- 
guno de los resultados en el evento. Por ejemplo, si un dado cae en el número 2, habrán ocu- 
rrido los eventos (2, 4, 6] y (1, 2, 3), junto con cualquier otro evento que contenga el 
resultado “2”. 


Un ingeniero eléctrico tiene en su mano dos cajas de resistores, cada una con cuatro de éstos. 
Los resistores de la primera caja están etiquetados con 10 4 (ohms), pero, de hecho, sus re- 
sistencias son de 9, 10, 11 y 12 02. Los resistores de la segunda caja tienen la etiqueta de 20 
Q, pero sus resistencias son de 18, 19, 20 y 21 22. El ingeniero elige un resistor de cada caja 
y determina la resistencia de cada uno. 

Sea A el evento para el cual el primer resistor tiene una resistencia mayor a 10, sea B el 
evento en el que el segundo resistor tiene una resistencia menor a 19 y sea C el evento en el cual 
la suma de las resistencias es igual a 28. Determine un espacio muestral para este experimen- 
to y especifique los subconjuntos que corresponden a los eventos A, B y C. 


Solución 

Un buen espacio muestral es el conjunto de pares ordenados en el que el primer elemento re- 
presenta la resistencia del primer resistor y el segundo elemento constituye la del segundo resis- 
tor. Se denotará a este espacio muestral con S. 
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S = [(9, 18), (9, 19), (9, 20), (9, 21), (10, 18), (10, 19), (10, 20), (10, 21), 
(11, 18), 11, 19), (11, 20), (11, 21), (12, 18), (12, 19), (12, 20), (12, 21)) 


Los eventos A, B y C están dados por 


A=((11, 18), (11, 19), (11, 20), (11, 21), (12, 18), (12, 19), (12, 20), (12, 21)) 
B =((9, 18), (10, 18), (11, 18), (12, 18)) 
C =((9, 19), (10, 18)) 


Combinación de eventos 


Con frecuencia se construyen eventos mediante la combinación de eventos más sencillos. De- 
bido a que aquéllos son subconjuntos de espacios muestrales, es usual emplear la notación de 
conjuntos para describir los eventos construidos de esta forma. A continuación se repasará la 
notación necesaria. 


m La unión de dos eventos A y B, se denota por A U B, es el conjunto de resultados que 
pertenecen ya sea a A o B, o a ambos. Esto es, A U B significa “A o B”. Por tanto, el even- 
to A U B se presenta siempre que ocurre A o B (o ambos). 

Mm La intersección de dos eventos A y B se denota como A N B; es decir, constituye el con- 
junto de resultados que pertenece tanto a A como a B. Por consecuencia, A N B significa 
“A y B”. Por consiguiente, el evento A N B se presenta siempre que A y B ocurren. 

m El complemento de un evento A se denota por A“, es el conjunto de resultados que no 
pertenecen a A. Es decir, A* significa “no A”. Por consiguiente, el evento A“ se presenta 
siempre que no ocurra A. 


Los eventos se pueden mostrar gráficamente con los diagramas de Venn. La figura 2.1 
muestra los eventos AUB,ANByBNA'. 


a) b) c) 


FIGURA 2.1 Diagramas de Venn que muestran varios eventos: a) AUB,LbLANB,CO)BNA". 


Con referencia al ejemplo 2.1, determine a BUCyAN B*. 


Solución 
El evento B U C contiene todos los resultados que pertenecen a B o a C, o a ambos. Por tanto, 
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BUC =((9, 18), (10, 18), (11, 18), (12, 18), (9, 19)) 


El evento B* contiene los resultados en el espacio muestral que no pertenecen a B. De ahí que 
el evento A N B" contenga los resultados que pertenecen a A y no pertenecen a B. Por consi- 
guiente, 


AnNB (11, 19), (11, 20), (11, 21), (12, 19), (12, 20), (12, 21)) 


Eventos mutuamente excluyentes 


Existen ciertos eventos que nunca se presentan simultáneamente. Por ejemplo, es imposible 
que una moneda que se arroje al aire calga a la vez en “cruz” y “cara”, al igual que un clavo 
de acero sea al mismo tiempo demasiado largo y corto. A eventos de este tipo se les llama 
mutuamente excluyentes. 


Definición 


MH Se dice que los eventos A y B son mutuamente excluyentes si no tienen resulta- 
dos en común. 

Mm De forma más general, se dice que una colección de eventos A, A», ...., A, es 
mutuamente excluyente si dos de ellos no tienen resultados en común. 


El diagrama de Venn en la figura 2.2 muestra eventos mutuamente excluyentes. 


DO 


FIGURA 2.2 Los eventos A y B son mutuamente excluyentes. 


Con referencia al ejemplo 2.1, si se realiza el experimento, ¿es posible que los eventos A y B 
ocurran al mismo tiempo? ¿Qué pasa con B y C? ¿A y C? ¿Qué par de eventos es mutuamen- 
te excluyente? 


Solución 

Si el resultado es (11, 18) o (12, 18), entonces tanto el evento A como el B ocurren. Si el resul- 
tado es (10, 18), entonces ocurren los eventos B y C. Es imposible que ocurran al mismo tiem- 
po A y C, ya que estos eventos son mutuamente excluyentes al no tener ningún resultado en 
común. 
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Probabilidades 


Todo evento en un espacio muestral tiene una probabilidad de ocurrir. Intuitivamente, la pro- 
babilidad es una medida cuantitativa de qué tan probable es que ocurra un evento. Formal- 
mente hablando, hay varias interpretaciones de la probabilidad; la primera que se adoptará es 
que la probabilidad de un evento representa la proporción de veces que se presentaría el even- 
to a largo plazo, si el experimento se repitiera una y otra vez. 

Con frecuencia se usa la letra P para representar la probabilidad. Por tanto, cuando se 
lanza una moneda al aire la notación “P(“cara”) = 1/2” significa que la probabilidad de que 
la moneda caiga en “cara” es igual a 1/2. 


Dado un experimento y cualquier evento A: 


m La expresión P(A) denota la probabilidad de que ocurra el evento A. 


E P(A) constituye la proporción de veces que se presenta el evento A en el tiempo, si 
es que el experimento se realizara una y otra vez. 


En muchas situaciones, la única forma de calcular la probabilidad de un evento es re- 
petir el experimento muchas veces y determinar la proporción de veces que ocurre. Por ejem- 
plo, si se deseara calcular la probabilidad de que un tablero de circuitos impresos fabricado 
por cierto proceso esté defectuoso, usualmente se necesitaría producir cierta cantidad de ta- 
bleros y probarlos para determinar la proporción de los defectuosos. En algunos casos, las 
probabilidades se pueden determinar si se conoce la naturaleza física del experimento. Por 
ejemplo, si se sabe que la forma de un dado es casi igual a la de un cubo perfecto y que su 
masa está distribuida aproximadamente en forma homogénea, se puede suponer que cada una 
de sus seis caras tiene la misma probabilidad de salir cuando se lanza el dado. 

Una vez que se han encontrado las probabilidades de ciertos eventos mediante el cono- 
cimiento científico O la experiencia, se puede calcular matemáticamente las probabilidades de 
otros eventos. Por ejemplo, si se ha calculado a través de la experimentación que la probabi- 
lidad de que un tablero de circuitos impresos esté defectuoso es de 0.10, se puede calcular que 
la probabilidad de que un tablero no esté defectuoso es de 0.90. Como otro ejemplo, supon- 
ga que los clavos de acero producidos por determinado proceso no cumplen con la longitud 
especificada, ya sea porque son demasiado cortos o demasiado largos. Al medir gran cantidad 
de clavos, se calculó que la probabilidad de que uno de ellos sea demasiado corto es de 0.02 
y que la probabilidad de que otro sea demasiado largo es de 0.03. Entonces puede calcularse 
que la probabilidad de que un clavo no cumpla con la especificación es de 0.05. 

En la práctica, los científicos e ingenieros calculan las probabilidades de ciertos even- 
tos con base en el conocimiento científico y la experiencia, y posteriormente utilizan reglas 
matemáticas para calcular las estimaciones de las probabilidades de otros eventos. En el res- 
to de esta sección y en la sección 2.2, se explican algunas de estas reglas y se muestra cómo 
utilizarlas. 


Axiomas de la probabilidad 


El tema de la probabilidad se basa en tres reglas de sentido común, conocidas como axiomas. 
Estas son: 
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Axiomas de la probabilidad 


1. Sea S un espacio muestral. Entonces P(S) = 1. 

2. Para cualquier evento A, O < P(4) < 1. 

3. Si A y B son eventos mutuamente excluyentes, entonces P(A U B) = P(A) + P(B). 
De forma más general, si A,, 4», .. . son eventos mutuamente excluyentes, enton- 
ces P(A¡UA,U-:+-)= P(A¡) + P(A) +::* 


Si se piensa un poco, es fácil ver que los tres axiomas en realidad concuerdan con el sentido 
común. El primero establece que el resultado de un experimento siempre está en el espacio 
muestral. Esto es obvio, puesto que, por definición, el espacio muestral contiene todos los re- 
sultados posibles del experimento. El segundo dice que la frecuencia a largo plazo de cualquier 
evento siempre se encuentra entre O y 100%. Un ejemplo que demuestra al tercer axioma, que 
ya se analizó anteriormente, es el del proceso que produce clavos de acero, en donde la proba- 
bilidad de que un clavo sea demasiado corto es de 0.02 y la de que un clavo es demasiado lar- 
go es de 0.03. El tercer axioma establece que la probabilidad de que el clavo sea demasiado 
corto o muy largo es 0.02 + 0.03 = 0.05. 

Ahora se presentan dos reglas sencillas que son útiles para calcular probabilidades. Es- 
tas reglas son intuitivamente obvias y también pueden comprobarse a través de los axiomas. 
Las demostraciones se encuentran al final de la sección. 


Para cualquier evento A, 
P(AS) = 1 — P(A) Q.1) 
Si () denota el espacio vacío, entonces 


P0)=0 (Q.2) 


La ecuación (2.1) establece que la probabilidad de que un evento no ocurra es igual a 1 me- 
nos la probabilidad de que ocurra. Por ejemplo, si existe una probabilidad de 40% de que llue- 
va, hay una probabilidad de 60% de que no llueva. La ecuación (2.2) establece que es 
imposible que un experimento no tenga ningún resultado. 


El objetivo de una prueba de tiro consiste de un blanco rodeado por dos anillos concéntricos. 
Se dispara un proyectil hacia el objetivo. La probabilidad de que pegue en el blanco es de 
0.10, la de que atine en el anillo interior es de 0.25 y la de que acierte en el anillo exterior es 
de 0.45. ¿Cuál es la probabilidad de que el proyectil haga blanco en el objetivo? ¿Cuál es la 
probabilidad de que no pegue en este último? 


Solución 

Pegar en el blanco, acertar en el anillo interior y atinar en el anillo exterior son eventos mu- 
tuamente excluyentes, ya que es imposible que más de uno de éstos ocurra a la vez. Por tan- 
to, utilizando el axioma 3, 
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Pípega en el objetivo) = P(blanco) + P(anillo interior) + P(anillo exterior) 
= 0,10 + 0.25 + 0,45 
= 0.80 


Ahora se puede calcular la probabilidad de que el proyectil no pegue en el objetivo utilizan- 
do la ecuación (2.1): 


P(no pega en el objetivo) = 1 — P(pega en el objetivo) 
= 1 - 0.80 
0.20 


La siguiente tabla presenta las probabilidades del número de veces en que el sistema de cier- 
ta computadora se “caerá” en el transcurso de una semana. Sea A el evento de que haya más 
de dos “caídas” durante la semana, y B el evento de que el sistema se “caerá” por lo menos 
una vez. Determine el espacio muestral. Después precise los subconjuntos del espacio mues- 


tral que corresponden a los eventos A y B. Posteriormente determine P(4) y P(B). 


Número de casos Probabilidad 


0 0.60 
1 0.30 
2 0.05 
3 0.04 
4 0.01 


Solución 

El espacio muestral del experimento es el conjunto (0, 1, 2, 3, 4]. Los eventos son A = (3, 
4) y B = (1,2, 3, 4). Para encontrar P(A), advierta que A constituye el evento en que se pre- 
senten tres “caídas” o que haya cuatro “caídas”. Los eventos “que se presenten tres caídas” y 
“que ocurran cuatro caídas” son mutuamente excluyentes. Por tanto, mediante el axioma tres, 
se concluye que 


P(A) = P(ocurran tres “caídas” o se presenten cuatro “caídas”) 
= P(ocurran tres “caídas”) + P(sucedan cuatro “caídas”) 
= 0.04 + 0.01 
= 0.05 


Se calculará P(B) en dos formas. Primero, observe que B” es el evento de que no haya ningu- 
na caída. Por tanto, utilizando la ecuación (2.1), 


P(B)=1-—P(B5 
= 1 — P(no ocurran “caídas”) 
= 1 -— 0.60 
= 0.40 
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En la segunda forma para calcular P(B), observe que B es el evento de que haya una “caída” 
o de que sucedan dos o que ocurran tres “caídas” o haya cuatro de éstas. Estos eventos son 
mutuamente excluyentes. Por consiguiente, utilizando el axioma tres, se concluye que 


P(B) = Pluna “caída”) + Pídos “caídas”) + P(tres “caídas”) + P(cuatro “caídas”) 
= 0.30 + 0.05 + 0.04 + 0.01 
= 0.40 


En el ejemplo 2.5 se calcularon las probabilidades de los eventos A = (3,4) y B = (1, 
2, 3, 4] al sumar las probabilidades de los resultados de cada uno de los eventos: P(A) = P(3) 
+ P(4) y P(B) = P() + PQ) + PG) + P(4). En general, este método funciona. Dado que 
cualesquiera dos resultados en un espacio muestral son mutuamente excluyentes, la probabi- 
lidad de que cualquier evento contenga un número finito de resultados se puede determinar 
mediante la suma de las probabilidades de los resultados que incluyen al evento. 


S1 A es un evento y A =(E,, E», ..., E,), entonces 


P(A) = P(E) + P(E) +::- +P(E,) (25) 


Espacios muestrales con resultados igualmente probables 


En algunos experimentos se puede construir un espacio muestral en el cual todos los resulta- 
dos sean igualmente probables. Un ejemplo sencillo es el lanzamiento de un dado, en el cual 
el espacio muestral es (1, 2, 3, 4, 5, 6) y cada uno de estos resultados tiene una probabilidad 
de 1/6. Otro tipo de experimento que tiene resultados igualmente probables es la selección 
aleatoria de un elemento a partir de una población de elementos. Se puede suponer que los 
elementos en la población son los resultados en un espacio muestral y que cada elemento tie- 
ne la misma probabilidad de ser seleccionado. 


Una población a partir de la cual se muestrea un elemento en forma aleatoria consti- 
tuye un espacio muestral con resultados igualmente probables. 


Si un espacio muestral contiene N resultados igualmente probables, la probabilidad de 
cada resultado es 1/N. Esto es así porque la probabilidad de todo el espacio muestral debe ser 
1 y esta probabilidad se divide equitativamente entre los N resultados. Si A representa un 
evento que contiene k resultados, entonces se puede determinar P(A) mediante la suma de las 
probabilidades de los k resultados, de tal forma que P(A) = Kk/N. 


Si S es un espacio muestral que contiene N resultados igualmente probables y si A 
es un evento que contiene k resultados, entonces 


P(A) = ES Q.4) 
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Un troquel de extrusión se utiliza para producir varillas de aluminio. Existen ciertas especifi- 
caciones para la longitud y diámetro de las varillas. Para cada una de éstas, la longitud puede 
ser demasiado corta, demasiado larga o estar bien y el diámetro se puede clasificar en muy del- 
gado, muy grueso o estar bien. En una población de mil varillas, el número de ellas en cada 
clase es: 


Diámetro 
Longitud Muy delgado Está bien Muy grueso 
Demasiado corta 10 3 9) 
Está bien 38 900 4 
Demasiado larga 2 25 13 


Se toma una varilla aleatoriamente a partir de esta población. ¿Cuál es la probabilidad de que 
sea demasiado corta? 


Solución 

Se considera que cada una de las mil varillas representa un resultado en un espacio muestral. 
Cada uno de los mil resultados tiene la misma probabilidad. Se resolverá el problema con- 
tando el número de resultados que corresponde al evento. El número de varillas que son de- 
masiado cortas es 10 + 3 + 5 = 18. Dado que el número total de varillas es mil, 


P(demasiado corta) = me" 


1 000 


Regla de la suma 


Si A y B son eventos mutuamente excluyentes, entonces P(A U B) = P(A) + P(Bb). Esta re- 
gla se puede generalizar para abarcar el caso en el que A y B no sean mutuamente excluyen- 
tes. En el ejemplo 2.7 se muestra este razonamiento. 


Con referencia al ejemplo 2.6, si se selecciona aleatoriamente una varilla, ¿cuál es la proba- 
bilidad de que sea demasiado corta o demasiado gruesa? 


Solución 

Primero, se resolverá este problema al contar el número de resultados que corresponde al 
evento. En la siguiente tabla se circuló la cantidad de varillas que son demasiado gruesas y el 
número de varillas que son muy cortas aparecen en rectángulos. Observe que hay cinco vari- 
llas que son muy cortas y demasiado gruesas. 
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Diámetro 
Longitud Muy delgado Está bien Muy grueso 
Demasiado corta [10] 3 [6] 
Está bien 38 900 (4) 
Demasiado larga 2 25 (13) 


De los mil resultados, el número de varillas que son demasiado cortas o muy gruesas es 10 + 
3 +54+4+ 13 = 35. Por consiguiente, 
35 


P(demasiado corta o muy gruesa) = —— 
qe 1000 


Ahora se resolverá el problema de tal forma que conduzca a un método más general. En el es- 
pacio muestral hay 10 + 3 + 5 = 18 varillas que son demasiado cortas y 5 + 4 + 13 = 22 
varillas muy gruesas. Pero si se trata de encontrar el número de varillas que sean demasiado 
cortas o muy gruesas al sumar 18 + 22, se obtiene un número muy grande (40 en vez de 35). 
La razón es que hay cinco varillas que son demasiado cortas y muy gruesas y éstas se cuen- 
tan dos veces. No obstante, se puede resolver el problema al sumar 18 y 22, pero entonces se 
le debe restar cinco para corregir el doble conteo. 
Se replantea este razonamiento al utilizar probabilidades: 


P(demasiado _ 18 P(muy _ 22 P(demasiado corta _ _5 
corta) 1000” gruesa) 1000” y muy gruesa) 1000 
P(demasiado corta P(demasiado P(muy P(demasiado corta 
o muy gruesa) _ corta) si gruesa) y muy gruesa) 
= _18_ q 2 _ SS 
1 000 1 000 1 000 
E Y 
1 000 


El método del ejemplo 2.7 es válido para cualesquiera dos eventos en un espacio mues- 
tral. En general, para determinar la probabilidad de que ocurran cualesquiera de los dos even- 
tos, se suman las probabilidades de los eventos y después se resta la probabilidad de que ambos 
ocurran. 


Sean A y B cualesquiera eventos, entonces 
P(AU B) = P(A) + P(B) — PAN B) Q.5) 


Una prueba de este resultado, basada en los axiomas, se encuentra al final de esta sección. Ob- 
serve que si A y B son mutuamente excluyentes, entonces P(A N B) = 0, por lo que, en este 
caso, la ecuación (2.5) se reduce al axioma 3. 
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E Jemplo 


CAPÍTULO 2 Probabilidad 


En un proceso que fabrica latas de aluminio, la probabilidad de que una lata tenga alguna fisu- 
ra en su costado es de 0.02, la de que otra la tenga en la tapa es de 0.03 y de que una más pre- 
sente una fisura en el costado y en la tapa es de 0.01. ¿Cuál es la probabilidad de que al elegir 
una lata en forma aleatoria tenga una fisura? ¿Cuál es la probabilidad de que no la tenga? 


Solución 

Se tiene que P(fisura en el costado) = 0.02, P(fisura en la tapa) = 0.03 y P(fisura en el cos- 
tado y en la tapa) = 0.01. Ahora P(fisura) = P(fisura en el costado o fisura en la tapa). Usan- 
do la ecuación (2.5), 


P(fisura en el costado o fisura en la tapa) = P(fisura en el costado) + P(fisura en la tapa) 
—P(fisura en el costado y fisura en la tapa) 
= 0.02 + 0.03 — 0.01 
= 0.04 


Para determinar la probabilidad de que una lata no tenga ninguna fisura, se calcula 


P(ninguna fisura) = 1 —P(fisura) = 1 — 0.04 = 0.96 


Demostración de P(AS) = 1 - P(A) 


Sea S un espacio muestral y A un evento. Entonces A y A“ son mutuamente excluyentes; 
por tanto, por el axioma 3, 


P(AUAS) = P(A) + P(AS) 
Pero A UA“ =$, y por el axioma 1, P(S) = 1. Por consiguiente, 
P(AAUAS)=P(S)=1 
Se sigue que P(4) + P(A5) = 1, entonces P(A%) = 1 — P(A). 


Demostración de P(() = 0 


Sea S un espacio muestral. Entonces f = S*. Por consecuencia, P(Q) = 1 — P(S) = 
1-=1=0. 


Prueba de P(A U B) = P(A) + P(B) - P(A N B) 


Sean A y B cualesquiera dos eventos. La clave de la demostración es escribir A U B como 
la unión de tres eventos mutuamente excluyentes: AN B,ANByAN B. 


AUB=(ANB)U(ANB)U(A TN B) (Q.6) 


La siguiente figura ilustra la ecuación (2.6). 
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= Ú Ú 
A B A B A B A B 


Por el axioma 3, 


PAUB)=PANB)+PANB)=P(4N B) Q.7) 


AhoraA =(ANBS)U(ANB)yB=(4AN B)U(A N B). Por tanto, 


P(A) = P(A N BS +P(A N B) (Q.8) 


P(B) = P(ATN B) + P(A N B) (2.9) 


Al sumar las ecuaciones (2.8) y (2.9) se obtiene 


P(A) + P(B) = P(A N BS) + P(A* N B) + 2P(A4 N B) (2.10) 


Al comparar las ecuaciones (2.10) y (2.7) se demuestra que 


P(A) + P(B) = PAU B)+PANB) (2.11) 


De ahí que P(A U B) = P(A) + P(B) -P(A N B). 


Ejercicios para la sección 2.1 


1. La probabilidad de que un microcircuito esté defectuoso es 
0.08. ¿Cuál es la probabilidad de que no presente defectos? 


2. Un dado-octaedro (de ocho caras) tiene el número 1 pinta- 
do en dos de sus caras, el 2 en tres de sus caras, el 3 en dos 
de sus caras y el 4 en una cara. Se lanza el dado. Suponga 
que cada cara tiene la misma probabilidad de salir. 


a) Determine el espacio muestral de este experimento. 
b) Determine P(número par). 


c) Si el dado estuviera cargado de tal forma que la cara con 
el número 4 tuviera el doble de probabilidad de salir que 
cada una de las otras siete caras, ¿cambiaría esto al es- 
pacio muestral? Explique. 


d) Si el dado estuviera cargado de manera que la cara con 
el número 4 tuviera el doble de probabilidad de salir que 
cada una de las otras siete caras, ¿cambiaría esto el va- 
lor de P(número par)? Explique. 


3. Sesenta por ciento de las grandes compras hechas a un ven- 


dedor de computadoras son PC, 30% son portátiles y 10% 
son accesorios, como impresoras. Como parte de una audito- 
ría, se elige una muestra aleatoria del registro de una compra. 


a) ¿Cuál es la probabilidad de que se trate de una compu- 
tadora personal? 


b) ¿Cuál es la probabilidad de que se trate de una compu- 
tadora personal o de una portátil? 


. Una unidad producida en cierto proceso tiene una probabi- 


lidad de 0.10 de que sea defectuosa. Verdadero o falso: 


a) Si se toma una muestra de 100 unidades, exactamente 
10 de ellas serán defectuosas. 


b) Si se toma una muestra de 100 unidades, el número de 
unidades defectuosas será aproximadamente 10, pero no 
exactamente 10. 


Cc) A medida que se toman más y más unidades, la propor- 
ción de unidades defectuosas se acercará a 10 por ciento. 
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5. 


Z. 


E jemplo 


CAPÍTULO 2 Probabilidad 


Un ingeniero que vigila el control de calidad toma una 
muestra de 100 unidades fabricadas por determinado proce- 
so y encuentra que 15 de ellas son defectuosas. Verdadero o 
falso. 


a) La probabilidad de que una unidad fabricada por este 
proceso esté defectuosa es 0.15. 


b) La probabilidad de que una unidad fabricada por este 
proceso esté defectuosa se aproxima a 0.15, pero no es 
exactamente igual a 0.15. 


. Un sistema contiene dos componentes, A y B. El sistema 


funcionará siempre y cuando A o B funcionen. La probabili- 
dad de que A funcione es 0.95, que B funcione es 0.90 y que 
ambos funcionen es 0.88. ¿Cuál es la probabilidad de que el 
sistema funcione? 


. Un sistema contiene dos componentes, A y B. El sistema só- 


lo funcionará si ambos funcionan. La probabilidad de que A 
funcione es 0.98, que B funcione es 0.95 y que A o B fun- 
cionen es 0.99. ¿Cuál es la probabilidad de que el sistema 
funcione? 


2 Métodos de conteo* 


8. El cuerpo humano puede contener uno o dos antígenos, A y 


B. A la sangre que contiene sólo el antígeno A se le denomi- 
na tipo A, a la que contiene sólo el B se le conoce como tipo 
B, a la que contiene a ambos se le llama tipo AB y a la san- 
gre que no contiene ninguno se le denomina tipo O. En cier- 
to banco de sangre, 35% de los donantes de sangre tiene el 
tipo de sangre A, 10% el tipo B y 5% el tipo AB. 


a) ¿Cuál es la probabilidad que se elija aleatoriamente a un 
donante de sangre de tipo O? 


b) Un receptor con sangre tipo A puede recibir sin ningún pe- 
ligro de un donante sangre que no tenga el antígeno B. 
¿Cuál es la probabilidad de que un donante elegido alea- 
toriamente pueda donar al receptor con sangre tipo A? 


. Verdadero o falso: Si A y B son mutuamente excluyentes, 


a) P(AUB)=0 

b) P(ANB)=0 

Cc) P(AUB)=P(ANB) 

d) P(AUB)=P(4)+P(B) 


Cuando se calculan probabilidades, algunas veces se necesita determinar el número de resul- 
tados en un espacio muestral. En esta sección se describirán diversos métodos con ese pro- 
pósito. La regla básica, que se conoce como principio fundamental de conteo, se presenta 


por medio del ejemplo 2.9. 


Cierto tipo de automóvil se encuentra disponible en tres colores: rojo, azul o verde, y puede 


tener un motor grande o pequeño. ¿De cuántas maneras puede un comprador elegir un auto- 


móvil? 


Solución 


Hay tres opciones de color y dos opciones de motor. Una lista completa de las opciones se 
muestra en la siguiente tabla de 3 x 2. El número total de opciones es (31Q) = 6. 


Rojo 


Azul Verde 


Grande 


Rojo, grande 


Azul, grande Verde, grande 


Pequeño 


Rojo, pequeño 


Azul, pequeño | Verde, pequeño 


* Esta sección es opcional. 
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Al generalizar el ejemplo 2.9, si hay n, elecciones de color y n, elecciones de motor, 
una lista completa de elecciones se puede escribir como una tabla n, Xx n,, por lo que el nú- 
mero total de elecciones es n,n». 


Si una operación se puede realizar en n, maneras y si para cada una de esas maneras 
se puede realizar una segunda operación en n, maneras, entonces el número total de 
maneras en que se realizan las dos operaciones es nn). 


Este razonamiento del principio fundamental del conteo de estados se puede ampliar 
para cualquier número de operaciones. 


El principio fundamental del conteo 

Suponga que se pueden realizar k operaciones. Si hay n, maneras de realizar la pri- 
mera Operación y si para cada una de esas maneras hay n, maneras de realizar la se- 
gunda operación y si para cada una de esas elecciones de esas maneras de realizar las 
dos primeras operaciones hay nz maneras de realizar la tercera operación y así suce- 
sivamente, entonces el número total de maneras de realizar la secuencia de las k ope- 
raciones es 1/1)... Mz. 


Cuando se hace un pedido de cierto tipo de computadora, hay tres elecciones de disco duro, 
cuatro de la cantidad de memoria, dos de la tarjeta de video y tres de monitor. ¿En cuántas 
maneras se puede solicitar una computadora? 


Solución 
El número total es (31440)GB) = 72. 


Permutaciones 


Una permutación constituye un ordenamiento de un conjunto de elementos. Por ejemplo, hay 
seis permutaciones de las letras A, B, C: ABC, ACB, BAC, BCA, CAB y CBA. Con solamen- 
te tres elementos, es fácil determinar el número de permutaciones, sólo con hacer una lista de 
todas ellas. Pero con un gran número de elementos esto último no sería factible. El principio 
fundamental del conteo se puede usar para determinar el número de permutaciones de cual- 
quier conjunto de elementos. Por ejemplo, se puede determinar el número de permutaciones 
de un conjunto de tres elementos de la siguiente manera. Hay tres elecciones para colocar el 
primer elemento. Después de que se hace la elección, hay dos elecciones restantes para el ele- 
mento del segundo lugar. Entonces queda una elección para el elemento del último lugar. Por 
tanto, el número total de maneras de ordenar tres objetos es (312)(1) = 6. Este razonamien- 
to se puede generalizar. El número de permutaciones de un conjunto de n elementos es 


n(n — 1)(n—2)---(B8)0)0) 


Éste es el producto de los enteros del 1 al n. Este producto se puede escribir con el símbolo 
n!, que se lee “n factorial”. 
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CAPÍTULO 2 Probabilidad 


Definición 


Para cualquier entero positivo n, n! = n(n — D(n — 2) --- (3W)U). 


También se define a 0! = 1. 


El número de permutaciones de n objetos es n! 


Cinco personas están en la hilera de un cine. ¿En cuántas maneras diferentes se pueden or- 
denar? 


Solución 
El número de permutaciones de un conjunto de cinco personas es 5! = (S1(46)B11) = 120. 


A veces se está interesado en contar el número de permutaciones de los subconjuntos de 
cierto tamaño elegidos de un conjunto más grande. Lo anterior se muestra en el ejemplo 2.12. 


Cinco salvavidas están disponibles para la guardia de un sábado por la tarde. Hay tres esta- 
ciones salvavidas. ¿De cuántas maneras se pueden elegir y organizar los tres salvavidas entre 
las estaciones? 


Solución 

Se usa el principio fundamental del conteo. Hay cinco maneras de elegir a un salvavidas para 
que ocupe la primera estación, luego cuatro de elegir a un salvavidas para que ocupe la segun- 
da estación y por último tres para elegir un salvavidas que ocupe la tercera estación. El núme- 
ro total de permutaciones de los tres salvavidas elegidos entre los cinco es (514)G) = 60. 


El razonamiento usado para resolver el ejemplo 2.12 se puede generalizar. El número 
de permutaciones de k objetos elegidos de un grupo de n objetos es 


mn —1)---(n—k+1) 
Esta expresión se puede simplificar utilizando la notación factorial: 


n(n—1)---(1n—k+1)(1—k)0—k-=1)---B6)0)0) 
(n—k)n—k-= 1D) ---(B6)0)0) 


(nn —1)---(n—k+1) 
n! 


(mk)! 
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El número de permutaciones de k objetos elegidos de un grupo de n elementos es 


n! 


(m0 


Combinaciones 


En algunos casos, cuando se elige un conjunto de elementos de un conjunto más grande, no 
se tiene en cuenta el orden de los elementos elegidos; sólo se consideran los elementos que se 
eligen. Por ejemplo, puede que no importe qué salvavidas ocupe cada estación; puede que só- 
lo sea importante la elección de tres salvavidas. A cada grupo distinto de elementos que se 
puede seleccionar, sin importar el orden, se le llama combinación. A continuación se mostra- 
rá cómo determinar el número de combinaciones de k elementos elegidos de un conjunto de 
n objetos. Se mostrará el razonamiento con el resultado del ejemplo 2.12. En ese ejemplo se 
mostró que hay 60 permutaciones de tres elementos elegidos entre cinco. Al denotar a los ele- 
mentos por A, B, C, D, E, en la figura 2.3 se presenta una lista de las 60 permutaciones. 


ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE 
ACB ADB AEB ADC AEC AED BDC BEC BED CED 
BAC BAD BAE CAD CAE DAE CBD CBE DBE DCE 
BCA BDA BEA CDA CEA DEA CDB CEB DEB DEC 
CAB DAB EAB DAC EAC EAD DBC EBC EBD ECD 
CBA DBA EBA DCA ECA EDA DCB ECB EDB EDC 


FIGURA 2.3 Las 60 permutaciones de tres elementos elegidos entre cinco. 


Las 60 permutaciones de la figura 2.3 están ordenadas en diez columnas de seis permu- 
taciones cada una. Dentro de cada columna, los tres elementos son los mismos y la columna 
contiene las seis permutaciones diferentes de esos tres elementos. Por tanto, cada columna re- 
presenta una combinación distinta de tres elementos elegidos entre cinco y hay diez combi- 
naciones de ese tipo. Por tanto, la figura 2.3 muestra que el número de combinaciones de tres 
elementos elegido entre cinco se puede encontrar al dividir el número de permutaciones de 
los tres elementos elegidos, o sea 5!/(5 — 3)!, por el número de permutaciones de los tres 
elementos, que es 3! En resumen, el número de combinaciones de los tres elementos elegi- 


5! 

dos es 16-31 
Con frecuencia el número de combinaciones de k elementos elegidos de n se denota por 

el símbolo (7) . El razonamiento utilizado para deducir el número de combinaciones de los 


n 
tres elementos elegidos se puede generalizar para deducir una expresión para (7) Ñ 


66 


CAPÍTULO 2 Probabilidad 


El número de combinaciones de k elementos elegidos de un grupo de n elementos es 


n n! 
(7) = dao Ln) 


A cierto evento asisten 30 personas y se elegirá aleatoriamente a cinco para recibir premios. 
Estos últimos son iguales, así que el orden en que se elige a las personas no es importante. 
¿Cuántos grupos diferentes de cinco personas se puede elegir? 


Solución 
En virtud de que el orden de las cinco personas elegidas no es importante, se tiene que calcu- 
lar el número de combinaciones de cinco elegidas entre 30. Esto es 


30 30! 
(5) 5125! 
60029028)07)06) 
560621) 
= 142 506 
Elegir una combinación de k elementos de un conjunto de n divide a los n elementos en 
dos subconjuntos: k que fueron elegidos y n — k que no fueron elegidos. A veces un conjun- 
to se divide en más de dos subconjuntos. Por ejemplo, suponga que en una clase de 12 estu- 
diantes se asignará un proyecto a los estudiantes para trabajar en equipos. Se formarán tres 
equipos, que constarán de cinco, cuatro y tres estudiantes. Se puede calcular el número de ma- 
neras en las que se formarán los equipos del siguiente modo. Se considera el proceso para di- 
vidir la clase en tres equipos como una secuencia de dos operaciones. La primera operación 
es seleccionar una combinación de cinco estudiantes para formar el equipo de cinco. La se- 
gunda consiste en elegir una combinación de cuatro estudiantes entre los siete restantes, para 
formar el equipo de cuatro. El equipo de tres automáticamente constará de los tres estudian- 
tes que quedan. 
El número de maneras de realizar la primera operación es 


12y _ 12! 
5) sm 
Después de que se ha realizado la primera operación, el número de las maneras de realizar la 


segunda operación es 
N_ 7 
4) — 4131 


Por tanto, el número total de maneras de realizar la secuencia de las dos operaciones es 


12! 7! 12! 
0 = 27 720 
5171413! 51413! 
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Observe que el numerador en la respuesta final es el factorial del tamaño total del grupo, 
mientras que el denominador constituye el producto de los factoriales de los tamaños de los 
equipos elegidos de éste. Esto último es válido en general. 


El número de maneras de dividir un grupo de n elementos en grupos de k,,...,k, 


elementos, donde k;, + - ++ + k,= n, es 
n! 


kil-ky! 


Se lanza un dado 20 veces. En virtud de que en tres de las tiradas salió el número 1, en cinco 
el 2, en cuatro el 3, en dos el 4 y en tres el 6, ¿cuántos arreglos diferentes de resultados hay? 


Solución 

Hay 20 resultados. Están divididos en seis grupos; a saber, el grupo de tres resultados en los 
que salió 1, el de cinco en los que salió 2 y así sucesivamente. El número de maneras de di- 
vidir los 20 resultados en seis grupos de tamaños específicos es 


20! 


= 12 
asuma 195 x10 


Cuando un espacio muestral consta de resultados igualmente probables, la probabilidad 
de un evento se puede encontrar al dividir el número de resultados en el evento entre el nú- 
mero total de resultados en el espacio muestral. A veces se pueden usar las reglas de conteo 
para calcular estos números, como se muestra en el siguiente ejemplo: 


En una caja de pernos se encuentran ocho gruesos, cinco medianos y tres angostos. Una caja 
de tuercas contiene seis que ajustan con los pernos gruesos, cuatro que ajustan con los pernos 
medianos y dos que ajustan con los pernos angostos. Se elige aleatoriamente un perno y una 
tuerca, ¿cuál es la probabilidad de que la tuerca ajuste con el perno? 


Solución 
El espacio muestral consta de todos los pares de tuercas y pernos y cada par es igualmente 
probable de ser elegido. El evento de que la tuerca ajuste con el perno corresponde al conjun- 
to de todos los pares que ajustan de tuercas y pernos. Por tanto, 

número de pares de tuercas y pernos que se ajustan 


P(tuerca ajusta con perno) = - 
número de pares de tuercas y pernos 


Hay 6 + 4 + 2 = 12 tuercas y 8 + 5 + 3 = 16 pernos. Por tanto, 


Número de pares de tuercas y pernos = (12)(16) = 192 
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CAPÍTULO 2 Probabilidad 


El número de pares que se ajusta se encuentra al sumar el número de pares de tuercas y per- 
nos gruesos, el de pares de tuercas y pernos medianos y el de pares de tuercas y pernos an- 


gostos. Estos números son 


Número de pares de tuercas y pernos gruesos = (61(8) = 48 
Número de pares de tuercas y pernos medianos = (4)(5) = 20 
Número de pares de tuercas y pernos angostos = (21(3) = 6 


Por tanto, 


P(tuercas que ajustan a los pernos) = 


Ejercicios para la sección 2.2 


1. 


Las moléculas de ADN constan de secuencias químicamen- 
te enlazadas a las bases adenina, guanina, citosina y tiami- 
na, denotadas por A, G, C y T. Una secuencia de tres bases 
se llama codón. 


a) 

b) Las bases A y G son purinas, mientras que las C y T son 
pirimidínicas. ¿Cuántos codones hay cuya primera y 
tercera bases son purinas y cuya segunda base es una pi- 
rimidínica? 


¿Cuántos codones diferentes hay? 


c) ¿Cuántos codones constan de tres bases diferentes? 


Un ingeniero químico está diseñando un experimento para 
determinar el efecto de temperatura, la razón de activación 
y el tipo de catalizador en la producción de reacción dada. 
Quiere estudiar cinco temperaturas diferentes de reacción, 
dos razones de activación distintas y cuatro catalizadores 
diferentes. Si cada operación del experimento implica la 
elección de una temperatura, una razón de activación y un 
catalizador, ¿cuántas operaciones diferentes son posibles? 


Diez ingenieros han solicitado un puesto administrativo en 
una gran empresa. Se seleccionará a cuatro de ellos como 
finalistas para el puesto. ¿De cuántas maneras se puede ha- 
cer esta selección? 


Un comité de ocho personas debe elegir un presidente, un 
vicepresidente y un secretario. ¿De cuántas maneras se pue- 
de hacer esta selección? 


Una prueba consta de 15 preguntas. Diez son preguntas ver- 
dadero-falso y cinco son de elección múltiple que tienen 
cuatro opciones cada una. Un estudiante debe seleccionar 
una respuesta para cada pregunta. ¿De cuántas maneras se 
puede hacer esta prueba? 


6. 


10. 


48+20+6 
192 


= 0.3854 


En cierto estado, las placas constan de tres letras seguidas 
de tres números. 


a) ¿Cuántas placas diferentes se pueden hacer? 


b) ¿Cuántas placas diferentes se pueden hacer de tal forma 
que ninguna letra o número aparezca más de una vez? 


c) Una placa se elige aleatoriamente. ¿Cuál es la probabi- 
lidad de que ninguna letra o número aparezca más de 
una vez? 


Una contraseña de computadora consta de ocho caracteres. 


a) ¿Cuántas contraseñas diferentes son posibles si cada ca- 
racter puede ser cualquier letra minúscula o dígito? 


b) ¿Cuántas contraseñas diferentes son posibles si cada ca- 
racter puede ser cualquier letra minúscula o dígito y al 
menos un caracter debe ser un dígito? 


c) Un sistema de computadora requiere que las contraseñas 
contengan al menos un dígito. Si se generan ocho carac- 
teres aleatoriamente y cada uno es igualmente probable 
de ser cualesquiera de las 26 letras o de los diez dígitos, 
¿cuál es la probabilidad de que se genere una contrase- 
ña válida? 


Una compañía ha contratado a 15 nuevos empleados y debe 
asignar seis al turno matutino, cinco al vespertino y cuatro al 
nocturno. ¿De cuántas maneras se puede hacer la asignación? 


Un cajón en un tocador contiene ocho calcetines azules y 
seis blancos. Un segundo cajón contiene cuatro calcetines 
azules y dos calcetines blancos. Se elige un calcetín de ca- 
da cajón. ¿Cuál es la probabilidad de que combinen? 


Un cajón contiene seis calcetines rojos, cuatro verdes y dos 
negros. Se elige dos calcetines aleatoriamente. ¿Cuál es la 
probabilidad de que combinen? 
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2.3 Probabilidad condicional e independencia 


Un espacio muestral contiene todos los resultados posibles de un experimento. Á veces se ob- 
tiene algo de información adicional acerca de un experimento que indica que los resultados 
provienen de cierta parte del espacio muestral. En este caso, la probabilidad de un evento es- 
tá basada en los resultados de esa parte del espacio muestral. Una probabilidad que se basa en 
una parte de un espacio muestral se llama probabilidad condicional. Se analizará esta idea 
a través de algunos ejemplos. 

En el ejemplo 2.6 (en la sección 2.1) se analizó una muestra de mil varillas de alumi- 
nio. Para cada varilla, la longitud se clasifica como demasiado corta, demasiado larga o está 
bien y el diámetro se clasifica como muy delgado, muy grueso o está bien. Esas mil varillas 
constituyen un espacio muestral en el que cada varilla tiene la misma probabilidad de ser se- 
leccionada. El número de varillas en cada categoría se presenta en la tabla 2.1. De las mil va- 
rillas, 928 satisfacen la especificación de diámetro. Por tanto, si se selecciona una varilla, 
P(diámetro está bien) = 928/1 000 = 0.928. A esta circunstancia se le llama probabilidad 
incondicional, ya que se basa en todo el espacio muestral. Ahora suponga que se toma una 
varilla, se mide su longitud y se encuentra que satisface la especificación. ¿Cuál es la proba- 
bilidad de que el diámetro también satisfaga la especificación? La clave para calcular esta pro- 
babilidad es darse cuenta de que el saber que la longitud satisface la especificación reduce el 
espacio muestral del que se seleccionó la varilla. La tabla 2.2 presenta esta idea. Una vez que 
se conoce que se satisface la especificación de la longitud, se sabe que esa varilla será una de 
las 942 en el espacio muestral que se presenta en la tabla 2.2. 


TABLA 2.1 Espacio muestral que contiene mil varillas de aluminio 


Diámetro 
Longitud Muy delgado Está bien Muy grueso 
Demasiado corta 10 3 5 
Está bien 38 900 4 
Demasiado larga 2 25 13 


TABLA 2.2 Espacio muestral reducido que contiene 942 varillas 
de aluminio que satisfacen la especificación de la longitud 


Diámetro 
Longitud Muy delgado Está bien Muy grueso 
Demasiado corta — = — 
Está bien 38 900 4 


Demasiado larga = == FE 


De las 942 varillas de este espacio muestral, 900 satisfacen la especificación del diáme- 
tro. Por tanto, si se sabe que la varilla satisface la especificación de longitud, la probabilidad 
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de que la varilla satisfaga la especificación del diámetro es: 900/942. Se dice que la probabili- 
dad condicional de que la varilla satisfaga la especificación de un diámetro dado que satisfa- 
ce la especificación de longitud es igual a 900/942 y se escribe P(diámetro está bien | longitud 
está bien) = 900/942 = 0.955. Observe que la probabilidad condicional P(diámetro está 
bien | longitud está bien) es diferente de la probabilidad incondicional P(diámetro está bien), 
que se calculó para todo el espacio muestral (tabla 2.1) de 0.928. 


Calcule la probabilidad condicional P(diámetro está bien | longitud demasiado larga). ¿Ésta es 
la misma que la probabilidad incondicional P(diámetro está bien)? 


Solución 

La probabilidad condicional P(diámetro está bien | longitud demasiado larga) se calcula bajo 
la suposición de que la varilla es demasiado larga. Esto último reduce el espacio muestral a 
los 40 elementos que se muestran en negritas en la tabla siguiente. 


Diámetro 
Longitud Muy delgado Está bien Muy grueso 
Demasiado corta 10 3 5 
Está bien 38 900 4 
Demasiado larga 2 25 13 


De los 40 resultados, 25 satisfacen la especificación de diámetro. Por tanto 


25 
P(diámetro está bien | longitud demasiado larga) = 207 0.625 


La probabilidad incondicional P(diámetro está bien) se calcula con base en todos los mil re- 
sultados en el espacio muestral y es igual a 928/1 000 = 0.928. En este caso, la probabilidad 
condicional es diferente de la probabilidad incondicional. 


Se analizará la solución del ejemplo 2.16 detenidamente. Se encuentra que 


P(diámetro está bien | longitud demasiado larga) = pa 

En la respuesta 25/40, el denominador, 40, representa el número de resultados que satisfacen 
la condición de que la varilla es demasiado larga, mientras que el numerador, 25, representa el 
número de resultados que satisfacen ambas condiciones, que la varilla es demasiado larga y 
que su diámetro está bien. Si dividimos tanto al numerador como al denominador de esta res- 
puesta entre el número de resultados en todo el espacio muestral, que es de mil, se obtiene 
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25/1 000 


P(diámetro está bien | longitud demasiado larga) = H2— 
(diámetro está bien | longitud demasiado larga) 40/1 000 


Ahora 40/1 000 representa la probabilidad de que se satisface la condición de que la varilla 
es demasiado larga. Esto es, 
P(longitud demasiado larga) = 20 
1000 
La cantidad 25/1 000 representa la probabilidad de que se satisfacen tanto la condición de que 
la varilla es demasiado larga y de que el diámetro está bien. Esto es, 


2 
P(diámetro está bien y longitud demasiado larga) = 0% 


Ahora se puede expresar la probabilidad condicional como 


P(diámetro está bien y longitud 


ds e ; A demasiado larga) 
P(diámetro está bien | longitud demasiado larga) = —————————————_—_—— 
P(ongitud demasiado larga) 


Este razonamiento se puede ampliar para construir una definición de la probabilidad 
condicional que es válida para cualquier espacio muestral. 


Definición 


Sean A y B eventos con P(B) + O. La probabilidad condicional de A dado B es 


P(ANB 
P(A|B) = poa e 2.14) 


La figura 2.4 presenta diagramas de Venn para ilustrar la idea de la probabilidad condicional. 


a) 


FIGURA 2.4 a) El diagrama representa la probabilidad incondicional 
P(A). P(A) se muestra al considerar el evento A en proporción con to- 
do el espacio muestral, el cual se representa por el rectángulo. b) El 
diagrama representa la probabilidad condicional P(A]B). Puesto que se 
sabe que ocurre el evento B, ahora éste será el espacio muestral. Para 
que el evento A ocurra, el resultado debe estar en la intersección A N 
B. Por tanto, la probabilidad condicional P(A]|B) se muestra al conside- 
rar la intersección A A B en proporción con todo el evento B. 
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En referencia al ejemplo 2.8 de la sección 2.1, ¿cuál es la probabilidad de que una lata tenga 
una fisura en el costado, dado que tiene una fisura en la tapa? 
Solución 


Se tiene que P(fisura en la tapa) = 0.03 y que P(fisura en el costado y fisura en la tapa) = 
0.01, utilizando la ecuación (2.14), 


P(fisura en el costado y fisura en la tapa) 
P(fisura en el costado | fisura en la tapa) = ——_—_—_—_—_—_—_—_—_—_—_—_—_—_—_— 
P(fisura en la tapa) 

0.01 
0,03 
= 0.33 


Con referencia al ejemplo 2.8 (en la sección 2.1), ¿cuál es la probabilidad de que una lata ten- 
ga una fisura en la tapa, dado que tiene una fisura en el costado? 
Solución 


Se tiene que P(fisura en el costado) = 0.02 y que P(fisura en el costado y fisura en la tapa) 
= 0.01. Utilizando la ecuación (2.14), 


P(fisura en la tapa y fisura en el costado) 
Pífisura en la tapa | fisura en el costado) = ——_—_—_—_—_—_—_—_—_—_—_—_—_— 


P(fisura en el costado) 
_ 0.01 
0.02 
=0.5 


Los resultados de los ejemplos 2.17 y 2.18 muestran que en general, P(A | BF P(B 14). 


Eventos independientes 


Algunas veces el conocimiento de que un evento ha ocurrido no cambia la probabilidad de 
que ocurra otro. En este caso las probabilidades condicional e incondicional son las mismas 
y se dice que los eventos son independientes. A continuación se presenta un ejemplo. 


Si una varilla de aluminio se selecciona del espacio muestral que se presenta en la tabla 2.1, 
determine P(demasiado larga) y P(demasiado larga | muy angosta). ¿Estas probabilidades son 
diferentes? 
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Solución 


P(demasiado larga) = e AR 0.040 
1 000 


] P(demasiado larga y muy angosta) 
P(demasiado larga | muy angosta) = —_—_—_—_—_—_—_—_—_=— 
P(muy angosta) 

_ 2/1000 
50/1000 
= 0.040 


La probabilidad condicional y la probabilidad incondicional son las mismas. La información de 
que la varilla es muy angosta no cambia la probabilidad de que la varilla es demasiado larga. 


El ejemplo 2.19 muestra que el conocimiento de que un evento ocurre a veces no cam- 
bia la probabilidad de que ocurra otro evento. En estos casos, se dice que los dos eventos son 
independientes. El evento de que una varilla es demasiada larga y el evento de que una vari- 
lla es muy angosta son independientes. A continuación se presenta una definición más preci- 
sa del término, tanto en palabras como en símbolos. 


Definición 
Dos eventos A y B son independientes si la probabilidad de cada uno es la misma si 
ocurren o no los demás eventos. 
En símbolos: si P(A) + O y P(B) F O, entonces A y B son independientes si 


P(BÍA) = P(B) o, de manera equivalente,  P(A|B)= P(A) (2.15) 


Si P(A) = 0 o P(B) = 0, entonces A y B son independientes. 


Si A y B son independientes, entonces los siguientes pares de eventos son también in- 
dependientes: A y B*, A* y B y A y B*. La prueba de este hecho se deja como ejercicio. 
El concepto de independencia se puede ampliar para más de dos eventos: 


Definición 


Los eventos Aj, A», . . ., A, son independientes si la probabilidad de cada uno perma- 
nece igual no importando lo que ocurre con los otros. 

En símbolos: los eventos Aj, 4», ... , A, son independientes si para cada A,, y cada 
colección Ay, Aj, . . . , Aj de eventos con P(A¡ NA +++ NA) +0, 


P(A;| Ay M--- MN Aj) = PA) (2.16) 
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La regla de la multiplicación 


Algunas veces se conoce P(A |B) y se desea encontrar P(A N B). Se puede obtener un resul- 
tado que sea útil para este propósito al multiplicar ambos lados de la ecuación (2.14) por P(B). 
Esto conduce a la regla de la multiplicación. 


SIA y B son dos eventos con P(B) + 0, entonces 

PA N B) = P(B) P(A | B) Q.17) 
Si A y B son dos eventos con P(A) + 0, entonces 

PAN B) = P(4) P(B | A) (2.18) 


S1P(A) F 0 y P(B) 4 O, entonces tanto la ecuación (2.17) como la (2.18) son válidas. 


Cuando dos eventos son independientes, entonces P(A |B) = P(A) y P(A |B) = P(B), 
así la regla de la multiplicación se simplifica: 


Si A y B son eventos independientes, entonces 
P(A N B) = P(A) P(B) (2.19) 
Este resultado se puede ampliar para cualquier número de eventos. S1A,,A»,..., A, 
son eventos independientes, entonces para cada colección Ay, Aj», . . . , Ajn de eventos 
P(Aj, DA A --- NAjm) = PA) PIAs) * > + Pm) (2.20) 
En particular, 
P(A¡NA2N---NA,) = P(A1) P(A)) : : - P(A,,) (Q.21) 


Un vehículo tiene dos motores: uno principal y otro auxiliar. El componente del motor falla só- 
lo sí fallan ambos motores. La probabilidad de que el motor principal falle es de 0.05 y la de 
que el motor auxiliar falle es de 0.10. Suponga que los motores principal y auxiliar funcionan 
de manera independiente. ¿Cuál es la probabilidad de que el componente del motor falle? 


Solución 
La probabilidad de que el componente del motor falle es la probabilidad de que ambos moto- 
res fallen. Por tanto, 


P(componente del motor falla) = P(motor principal falla y motor auxiliar falla) 


Puesto que los motores son independientes, se puede usar la ecuación (2.19): 
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P(motor principal falla y motor auxiliar falla) = P(motor principal falla)P(motor auxiliar falla) 
= (0.10)(0.05) 
= 0.005 


Un sistema contiene dos componentes, A y B. Ambos componentes deben funcionar para que 
el sistema trabaje. La probabilidad de que el componente A falle es de 0.08 y de que el B lo 
haga es de 0.05. Suponga que los dos componentes funcionan de manera independiente, ¿cuál 
es la probabilidad de que el sistema funcione? 


Solución 
La probabilidad de que el sistema funcione es la probabilidad de que ambos componentes 
funcionen. Por tanto, 


P(funciona el sistema) = P(funciona A y funciona B) 
Puesto que los componentes funcionan de manera independiente, 


P(funciona A y funciona B) = P(A funciona)P(B funciona) 
= [1 — Pífalla A)][1 — P(falla B)] 
= (1 — 0.080 — 0.05) 
= 0.874 


De los microprocesadores fabricados mediante cierto proceso, 20% está defectuoso. Se elige 
aleatoriamente cinco de aquéllos. Suponga que funcionan independientemente, ¿cuál es la 
probabilidad de que todos funcionen? 


Solución 
Parai= 1,..., 5, sea que A, denote el evento de que el ¡-ésimo microprocesador funcione. 
Entonces 
P(los 5 funcionan) = P(41/N 42N 43N A4N As) 
= P(AN)P(AJ)P(A)P(A)P(As) 
= (1 - 0.20) 
= 0.328 


En el ejemplo 2.22, ¿cuál es la probabilidad de que al menos uno de los microprocesadores 
funcione? 


Solución 
La manera más fácil de resolver este problema es observar que 


P(al menos uno funciona) = 1 — P(todos están defectuosos) 


Ahora, denotando a D; como el evento que el ¡-ésimo microprocesador es defectuoso, 
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P(todos están defectuosos) = P(D, ND,ND3NDA¿N Ds) 
= AD) PDIPDIPDYPODs) 
= (0.207 
= 0.0003 
Por tanto, P(al menos uno funciona) = 1 — 0.0003 = 0.9997, 


Las ecuaciones (2.19) y (2.20) indican cómo calcular las probabilidades cuando se sa- 
be que los eventos son independientes, pero no son generalmente de mucha ayuda para deter- 
minar si dos eventos son realmente independientes. En la mayoría de los casos, la mejor 
manera de determinar si los eventos son independientes es comprendiendo el proceso que los 
produce. He aquí algunos ejemplos: 


mM Se tira dos veces un dado. Es razonable creer que el resultado de la segunda tirada no 
se vea afectado por el resultado de la primera. Por tanto, conocer el resultado de la pri- 
mera tirada no ayuda a predecir el resultado de la segunda. Las dos tiradas son indepen- 
dientes. 

mM Cierta reacción química se realiza dos veces, utilizando equipos diferentes cada vez. Es 
razonable creer que el producto de una reacción no afectará la producción de la otra. En 
este caso los productos son independientes. 

mM Unareacción química se realiza dos veces sucesivamente, utilizando el mismo equipo. 
En este caso, no es sensato suponer que las producciones son independientes. Por ejem- 
plo, una producción baja en la primera realización podría indicar que hay más residuos 
de lo normal. Lo anterior podría tender a hacer que la producción en la siguiente reali- 
zación fuese más alta. Por tanto, conocer la primera producción puede ayudar a prede- 
cir la producción en la segunda realización. 

m Los elementos en una muestra aleatoria simple se pueden tratar como independientes, 
a menos que la población sea finita y la muestra consista de más de 5% de la población 
(véase el análisis de independencia en la sección 1.1). 


Ley de la probabilidad total 


La ley de la probabilidad total se muestra en la figura 2.5. Un espacio muestral contiene los 
eventos A;, A,, A, y Ay. Éstos son mutuamente excluyentes, ya que dos no coinciden. Son tam- 
bién exhaustivos, ello significa que su unión abarca todo el espacio muestral. Cada resultado 
en este espacio pertenece a uno y sólo uno de los eventos Aj, A», Az, Ay. 

El evento B es cualquier evento. En la figura 2.5, cada uno de los eventos A, que inter- 
sectan a B, forman los eventos A; N B, AN B,A3N By Aj, NM B. Es obvio de la figura 2.5 
que los eventos A; N B, AN B,A3N By A4N B son mutuamente excluyentes y que abarcan 
a B. Cada resultado en B pertenece a uno y sólo uno de los eventos A; N B, 4, N B,A3N B 
y Ay N B. Por lo que 


B=(A,NBJU(4,NB)U(A¡NB)U(A4,4N B) 


2.3 Probabilidad condicional e independencia 77 


FIGURA 2.5 Los eventos A,, A», A3, Ay mutuamente excluyentes y exhaustivos dividen 
al evento B en subconjuntos mutuamente excluyentes. 


el cual es la unión de los eventos mutuamente excluyentes. Por tanto, 
P(B)= P(A1NB)+P(42N B)+ P(43N B)+P(44N B) 
Debido a que P(A¡N B) = P(B|A¡)P(4;), 


P(B) = P(BIANP(A1) + P(BIA2)P (AS) + P(BIAS)P(A3) + P(BIA) P (44) (2.22) 


La ecuación (2.22) es un caso especial de la ley de la probabilidad total, restringida al caso 
donde hay cuatro eventos mutuamente excluyentes y exhaustivos. La intuición detrás de la ley 
de la probabilidad total es muy simple. Los eventos A,, 4», A3, Ay parten al evento en B pie- 
zas. La probabilidad de B se encuentra sumando las probabilidades de todas las piezas. 

Se podría dibujar nuevamente la figura 2.5 para tener cualquier número de eventos A,. 
Esto conduce al caso general de la ley de la probabilidad total. 


Ley de la probabilidad total 
S1 Aj... , A, son eventos mutuamente excluyentes y exhaustivos y B es cualquier 
evento, entonces 


P(B)=P(A¡NB)+-:**+P(A, NB) (2.23) 
De manera equivalente, si P(A;) + O para cada A,, 


P(B) = P(BIADP(A) ++ P(BIAN)P (As) (2.24) 


Clientes que compran cierta marca de automóvil pueden pedir un motor en cualquiera de tres 
tamaños. De todos los automóviles vendidos, 45% tiene el motor más pequeño, 35% tamaño 
mediano y 20% más grande. Los automóviles en una prueba de emisiones dentro de los dos 
años de su compra fallan 10% con el motor más pequeño, mientras que 12% de los de tamaño 
mediano y 15% de los de motor más grande. ¿Cuál es la probabilidad de que un automóvil ele- 
gido aleatoriamente pueda fallar en una prueba de emisiones dentro de los dos primeros años? 
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Solución 

Sea B el evento de que un automóvil falle en una prueba de emisiones dentro de los dos pri- 
meros años. Sea A; el evento que es un automóvil con un motor pequeño, A, el evento que un 
automóvil tiene un motor mediano y Ay el evento que un automóvil tiene un motor grande. 
Entonces 


P(A¡) =0.45 P(A2) = 0.35 P(A3) = 0.20 


La probabilidad de que un automóvil falle una prueba, dado que tiene un motor pequeño, es 
de 0.10. Es decir, P(B|A,) = 0.10. De manera similar, P(B|A,) = 0.12 y P(BÍAs) = 0.15. 
Por la ley de probabilidad total (ecuación 2.24). 


P(B) = P(BJAN)P(A1) + P(B]A)P (42) + P(B|A3)P(A3) 
= (0.10)(0.45) + (0.12)(0.35) + (0.15)(0.20) 
= 0.117 


A veces problemas como los del ejemplo 2.24 se resuelven con el uso de diagramas de ár- 
bol. La figura 2.6 presenta un diagrama de árbol para el ejemplo 2.24. Hay tres ramas principa- 
les en el árbol, que corresponde a los tres tamaños de motor. Las probabilidades de los tamaños 
de motor se colocan en sus ramas respectivas. Al final de cada rama principal están dos ramas 
secundarias, que representan los eventos de falla y no falla. Las probabilidades condicionales de 
falla y no falla, dado el tamaño del motor, se colocan en las ramas secundarias. Al multiplicar a 
lo largo de cada una de las ramas que corresponden al evento B = falla, se obtienen las proba- 
bilidades P(B LA)P(A)). Al sumar estas probabilidades se obtiene P(B), como se quería. 


Regla de Bayes 


Si A y B son dos eventos, se ha visto que en general P(A |B) + P(B | A). La regla de Bayes 
proporciona una fórmula que permite calcular una de las probabilidades condicionales si se 
conoce la otra. Para ver cómo funciona, suponga que se conoce P(B | A) y que se desea cal- 
cular P(A |B). Se inicia con la definición de probabilidad condicional (ecuación 2.14): 


P(AN B) 


P(A|B) = PB) 


Ahora se utiliza la ecuación (2.18) en la que se sustituye P(B LAJP(A) por P(A N B): 


PCALB P(BIA)P(A) 
AD == — (2.25) 
La ecuación (2.25) es esencialmente la regla de Bayes. Cuando se escribe la regla de Bayes, la 
expresión P(B) del denominador se reemplaza con una expresión más complicada obtenida 
por lo general de la ley de la probabilidad total. De modo específico, puesto que los eventos 
A y A“ son mutuamente excluyentes y exhaustivos, la ley de la probabilidad total muestra que 


P(B) = P(BIA)P(A) + PBIADPL(AS) (Q.26) 


Al sustituir en el lado derecho de la ecuación (2.26) a P(B) de la ecuación (2.25) se obtiene 
la regla de Bayes. También se puede obtener una versión más general de la regla de Bayes al 
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P(B Ay) = P(BIA)P(A y) = 0.045 


P(B NA,) = P(BIA,)P(A,) = 0.042 


P(B Az) = P(BIA3)P(Ay) = 0.030 


FIGURA 2.6 Diagrama de árbol para la solución del ejemplo 2.24. 


considerar una colección A; ..., A, de eventos mutuamente excluyentes y exhaustivos y uti- 
lizando la ley de la probabilidad total sustituyendo a P(B) con la expresión del lado derecho 
de la ecuación (2.24). 


La regla de Bayes 
Caso especial: Sean A y B eventos con P(4) + 0, P(AS) 4 0 y P(B) 4 O. Entonces 


P(AIB) Dn Q.27) 
— PBIA)P(A) + PBIADP(AS) 


Caso general: Sean A;,..., A, eventos mutuamente excluyentes y exhaustivos con 
P(A) 4 0 para cada A,. Sea B cualquier evento con P(B) + O. Entonces 


P(B|A¡)P (Ax) 


RN 


(2.28) 


En el ejemplo 2.25 se muestra cómo se puede usar la regla de Bayes para descubrir un 
importante y sorprendente resultado en el campo de las pruebas médicas. 


CAPÍTULO 2 Probabilidad 


La proporción de personas en una comunidad que tienen cierta enfermedad es 0.005. Está dis- 
ponible una prueba para diagnosticar la enfermedad. Si una persona la padece, la probabilidad 
de que la prueba dé una señal positiva es 0.99. Si una persona no está enferma, la probabili- 
dad de que la prueba dé una señal positiva es 0.01. Si una persona sale positiva en la prueba, 
¿cuál es la probabilidad de que la persona realmente esté enferma? 


Solución 
Sea D el evento de que la persona realmente está enferma y sea + el evento que la prueba sa- 
le positiva. Se desea encontrar P(D | +). Se dan las probabilidades siguientes: 


P(D)=0.005  P(+|D)=0.99  P(+|D“)=0.01 


Al utilizar la regla de Bayes (ecuación 2.27), 


P(+]D)P(D) 


AS PEID)P(D) + PF |DO)P(DS) 


(0.99)(0.005) 
— (0.99)(0.005) + (0.01)(0.995) 


= 0.332 


En el ejemplo 2.25 sólo aproximadamente un tercio de las personas que resulta positi- 
vo en el examen, realmente padece la enfermedad. Observe que la prueba es bastante exacta; 
clasifica correctamente a 99% de las personas tanto enfermas como no enfermas. La razón por 
la que una proporción grande de pruebas resulta positiva cuando en realidad se está libre de la 
enfermedad es que la enfermedad es rara: sólo 0.5% de la población la padece. Debido a que 
cierta cantidad de enfermedades son raras, muchas pruebas médicas resultarán positivas cuan- 
do en realidad son falsos positivos, aun cuando la prueba es bastante exacta. Por esta razón, 
cuando una prueba sale positiva se hace generalmente una segunda prueba antes de que se 
confirme el diagnóstico. 


Con referencia al ejemplo 2.24, se elige aleatoriamente un registro de una prueba de emisio- 
nes con falla. ¿Cuál es la probabilidad de que éste sea un automóvil con un motor pequeño? 


Solución 

Sea B el evento que un automóvil falla en una prueba de emisiones. Sea A; el evento que un 
automóvil tiene un motor pequeño, A, el evento de que lo tiene mediano y Az que su motor 
es grande. Se desea encontrar P(A, | B). Las siguientes probabilidades están dadas en el ejem- 
plo 2.24: 


P(A¡) =0.45 P(A») =0.35 P(A3) =0.20 
P(BIA1)=0.10  P(B]A2)=0.12  P(B|A3)=0.15 


Ejemplo 
12.287 
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Por la regla de Bayes, 


P(B|A¡)P(A1) 
P(B|A¡)P(A1) + P(B|A2)P(42) + P(BIAS)P(A3) 


Ñ (0.10)(0.45) 
— (0.10)(0.45) + (0.12)(0.35) + (0.15)(0.20) 


= 0.385 


P(A1|B) = 


Aplicación al análisis de confiabilidad 


El análisis de confiabilidad constituye la rama de la ingeniería que se dedica al cálculo de las 
tasas de fallas de los sistemas. Mientras que algunos problemas en el análisis de confiabilidad 
requieren de métodos matemáticos avanzados, hay muchos problemas que se pueden resolver 
con los métodos que se han aprendido hasta ahora. Se inicia con un ejemplo que muestra el 
cálculo de confiabilidad de un sistema que consiste de dos componentes conectados en serie. 


Un sistema contiene dos componentes, A y B, conectados en serie como se muestra en el dia- 
grama siguiente. 


[Bj — 


El sistema funcionará sólo si ambos componentes funcionan. La probabilidad de que A fun- 
cione está dada por P(A) = 0.98 y la probabilidad de que B funciona está dada por P(B) = 
0.95. Suponga que A y B funcionan de manera independiente. Determine la probabilidad de 
que el sistema funciona. 


Solución 
Debido a que el sistema funcionará sólo si ambos componentes funcionan, se tiene que 


P(sistema funciona) = P(AN B) 
= P(A)P(B) por la suposición de independencia 
= (0.98)(0.95) 
= 0.931 


El ejemplo 2.28 muestra el cálculo de confiabilidad de un sistema que consta de dos 
componentes conectados en paralelo. 


Un sistema contiene dos componentes, C y D, conectados en paralelo como se muestra en el 
diagrama siguiente. 
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D 


El sistema funcionará si alguno, C o D funcionan. La probabilidad de que C funcione es 0.90 
y la de que D lo haga es 0.85. Suponga que C y D funcionan de manera independiente. De- 
termine la probabilidad de que el sistema funcione. 


Solución 
Debido a que el sistema funcionará mientras que cualesquiera de los dos componentes fun- 
cione, se tiene que 


P(sistema funciona) = P(C U D) 
= P(CO)+P(D)- P(CND) 
= P(C)+P(D) — P(C)P(D) 
por la suposición de independencia 
= 0.90 + 0.85 — (0.90)(0.85) 
= 0.985 


Con frecuencia la confiabilidad de sistemas más complejos se puede determinar al des- 
componer al sistema en una serie de subsistemas, cada uno contiene componentes conectados 
en serie o en paralelo. El ejemplo 2.29 muestra el método. 


La tesis “Dynamic, Single-stage, Multiperiod, Capacitated Production Sequencing Problem 
with Multiple Parallel Resources” (D. Ott, tesis de maestría, Escuela de Minas, de Colorado, 
1998) describe un método de producción utilizado en la fabricación de latas de aluminio. El 
siguiente diagrama esquemático, ligeramente simplificado, muestra el proceso. 


Llenado 
€ F 


— A —— B D 
Taza Lavado E G — a 


Impresión Despaletizado Llenado 


La entrada inicial al proceso consta de hojas de aluminio enrolladas, aproximadamente 0.25 
mm de espesor. En un proceso que se conoce como “hacer formas de taza”, se desenrollan es- 
tas hojas y se les da forma, en cuerpos de lata, que son cilindros cerrados en la parte inferior 
y abiertos en la parte superior. Después, estos cuerpos de lata se lavan y se envían a la impre- 
sión, donde se imprime la etiqueta sobre la lata. En la práctica hay varias impresoras en una 
línea; el diagrama presenta una línea con tres de aquéllas. El impresor deposita las latas en 
paletas, que son estructuras de madera que sostienen 7 140 latas cada una. El siguiente paso 
es llenar las latas. Algunas líneas de llenado pueden aceptar latas directamente de las paletas, 
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pero otras sólo las aceptan de los recipientes de las latas, que son grandes contenedores que 
tienen aproximadamente cien mil latas cada uno. Para usar estas líneas de llenado, las latas se 
deben transportar de las paletas a los recipientes de las latas, en un proceso que se llama des- 
paletizado. En la práctica hay varias líneas de llenado; el diagrama presenta un caso donde 
hay dos líneas de llenado, una que aceptará latas de las paletas y la otra aceptará latas que no 
provienen de las paletas. En el proceso de llenado de latas, éstas se llenan y se les coloca la 
tapa. Después se empaquetan las latas y se envían a los distribuidores. 

Se desea calcular la probabilidad de que el proceso funcione un día sin falla. Suponga 
que el proceso de hacer la lata tiene una probabilidad de 0.995 de funcionar con éxito en un 
día. Puesto que este componente se denota por “A” en el diagrama, se expresa esta probabi- 
lidad como P(4) = 0.995. Suponga que las otras componentes del proceso tienen las siguien- 
tes probabilidades de funcionar con éxito durante un periodo de un día: P(B) = 0.99, P(C) = 
P(D) = P(E) = 0.95, P(F) = 0.90, P(G) = 0.90, P(H) = 0.98. Suponga que los componen- 
tes funcionan de manera independiente. Determine la probabilidad de que el proceso funcio- 
ne con éxito en un día. 


Solución 
Es posible resolver este problema observando que todo el proceso se puede descomponer en 
subsistemas, cada uno de éstos consta de sistemas compuestos sólo en serie o en paralelo. Es- 
pecíficamente, el subsistema 1 consiste de los componentes hacer la lata y lavar, que están co- 
nectadas en serie; el subsistema 2 consiste de las impresoras que están conectadas en paralelo; 
el subsistema 3 consiste de líneas de llenado, que están conectadas en paralelo, con una de las 
dos líneas que consta de dos componentes conectados en serie. 

Se calculan las probabilidades del funcionamiento con éxito para cada subsistema, de- 
notando las probabilidades con p;, p, y pz. 


P (subsistema 1 funciona) = p¡ = P(AN B) 
= P(A)P(B) 
= (0.995)(0.990) 
= 0.985050 


P (subsistema 2 funciona) = p2 = 1 — P( subsistema 2 falla) 
=1- PC NDNES) 
=1- P(CS)PDOP(ES 
=1-— (0.05)? 
= 0.999875 


El subsistema 3 funciona si F funciona, o si tanto G como H funcionan. Por tanto, 


P (subsistema 3 funciona) = p3 = P(FU(GN H)) 
= P(PH)+P(GNH-P(FENGNHA) 
= P(P)+ P(G)|P(H) — P(F)P(G)P(H) 
= (0.90) + (0.90)(0.98) — (0.90)(0.90)(0.98) 
= 0.988200 
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Todo el proceso consta de tres subsistemas conectados en serie. Por tanto, para que el proce- 
so funcione, los tres subsistemas deben funcionar. Se concluye que 


P(funciona el sistema) = P(los sistemas 1, 2 y 3 todos funcionan) 
= P1P2P3 
= (0.985050)(0.999875)(0.988200) 
= 0.973 


Se advierte que la suposición de que los componentes funcionan independientemente es 
crucial en las soluciones de los ejemplos 2.27, 2.28 y 2.29. Cuando no se satisface esta supo- 
sición, puede ser muy difícil hacer que los cálculos tengan una precisión confiable. Si se usa 
la suposición de independencia sin justificación, los cálculos pueden tener una confiabilidad 


engañosa. 


Ejercicios para la sección 2.3 


1. 


Una caja contiene diez fusibles. Ocho de ellos están tasados 
en 10 amperes (A) y los otros dos están tasados en 15 A. Se 
seleccionan dos fusibles aleatoriamente. 


a) ¿Cuál es la probabilidad de que el primer fusible esté ta- 
sado en 15 A? 


b) ¿Cuál es la probabilidad de que el segundo fusible esté 
tasado en 15 A, dado que el primer fusible esté tasado en 
10 A? 


Cc) ¿Cuál es la probabilidad de que el segundo fusible esté ta- 
sado en 15 A, dado que el primer fusible lo esté en 15 A? 


. Con referencia al ejercicio 1, se seleccionan aleatoriamente 


fusibles de la caja, uno tras otro, hasta que se selecciona uno 
de 15 A. 


a) ¿Cuál es la probabilidad de que los primeros dos fusi- 
bles sean ambos de 10 A? 


b) ¿Cuál es la probabilidad de que un total de dos fusibles 
sean elegidos de la caja? 


c) ¿Cuál es la probabilidad de que más de tres fusibles sean 
elegidos de la caja? 


. Un día de graduación de una gran universidad, se seleccio- 


na aleatoriamente a un graduado. Sea A el evento que el es- 
tudiante está por terminar la carrera de ingeniería y sea B el 
evento que el estudiante tomó un curso de cálculo en la uni- 
versidad. ¿Qué probabilidad es mayor, P(A | B) o P(B |4)? 
Explique. 


En el artículo “Integrating Risk Assessment and Life Cycle 
Assessment: A Case Study of Insulation” (Y. Nishioka, J. 


Levy y colaboradores, Risk Analysis, 2002:1003-1017) se 
calcula que 5.6% de cierta población tiene asma y que un as- 
mático tiene 0.027 probabilidad de sufrir un ataque en un día 
dado. Se elige aleatoriamente a una persona de esta pobla- 
ción. ¿Cuál es la probabilidad de que esta persona tenga un 
ataque asmático en ese día? 


. Los pozos de petróleo perforados en la región A tienen una 


probabilidad de 0.2 de producir. Los pozos perforados en la 
región B tienen una probabilidad de 0.09. Se perfora un po- 
zo en cada región. Suponga que los pozos producen de ma- 
nera independiente. 


a) ¿Cuál es la probabilidad de que ambos pozos produzcan? 
b) ¿Cuál es la probabilidad de que ninguno produzca? 


c) ¿Cuál es la probabilidad de que al menos uno produzca? 


. De todas las fallas de un tipo determinado de unidad de dis- 


co duro de computadora, se determina que 20% de éstos tie- 
ne dañado sólo el sector que contiene la tabla de asignación 
de archivos, en 70% sólo los sectores no esenciales están 
dañados y en 10% tanto el sector de asignación como uno o 
más sectores no esenciales están dañados. Se selecciona 
aleatoriamente una unidad de disco dañada y se examina. 


a) ¿Cuál es la probabilidad de que el sector de asignación 
esté dañado? 


b) ¿Cuál es la probabilidad de que un sector no esencial es- 
té dañado? 


c) Si se encuentra que la unidad de disco tiene un sector de 
asignación dañado, ¿cuál es la probabilidad de que algu- 
nos sectores no esenciales también estén dañados? 


d) Si se encuentra que la unidad de disco tiene un sector no 
esencial dañado, ¿cuál es la probabilidad de que el sec- 
tor de asignación también esté dañado? 


e) Si se encuentra que la unidad de disco tiene un sector de 
asignación dañado, ¿cuál es la probabilidad de que nin- 
gún sector no esencial esté dañado? 


$) Si se encuentra que la unidad de disco tiene un sector no 
esencial dañado, ¿cuál es la probabilidad de que el sec- 
tor de asignación no está dañado? 


. En el proceso de producción de válvulas de motor, éstas se 
someten a un primer rectificado. Las válvulas cuyos espe- 
sores están dentro de la especificación se encuentran listas 
para la instalación. Las válvulas cuyos espesores están arri- 
ba de la especificación se rectifican, mientras que aquellas 
cuyos espesores están por debajo se desechan. Suponga que 
después del primer rectificado, 70% de las válvulas satisfa- 
ce la especificación, 20% es nuevamente rectificado y 10% 
se desecha. Además, suponga que de las válvulas que son 
nuevamente rectificadas, 90% satisface la especificación y 
10% se desecha. 


a) Determine la probabilidad de que una válvula se rectifi- 
que sólo una vez. 


b) Dado que una válvula se hace sólo una vez, ¿cuál es la 
probabilidad de que se deseche? 

c) Determine la probabilidad de que se deseche una válvula. 

d) Dado que una válvula se desecha, ¿cuál es la probabili- 
dad de que se rectifique dos veces? 


e) Determine la probabilidad de que la válvula satisfaga la 
especificación (después de la primera o de la segunda 
rectificación). 

f) Dado que una válvula satisface la especificación (des- 
pués de la primera o segunda rectificación), ¿cuál es la 
probabilidad de que se haya rectificado dos veces? 


£) Dado que una válvula satisface la especificación, ¿cuál 
es la probabilidad de que se haya rectificado una vez? 


. Sarah y Thomas tiran un dado cada uno. Quien obtenga el 
número más alto gana; si ambos tiran el mismo número de 
veces, ninguno gana. 


a) ¿Cuál es la probabilidad de que Thomas gane? 
b) Si Sarah tira un 3, ¿cuál es la probabilidad de que gane? 


c) Si Sarah tira un 3, ¿qué probabilidad hay de que Thomas 
gane? 

d) Si Sarah gana, ¿cuál es la probabilidad de que Thomas 
haya tirado un 3? 


e) Si Sarah gana, ¿cuál es la probabilidad de que Sarah ha- 
ya tirado un 3? 
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Un sistema de aspersión automático especial tiene dos tipos 
diferentes de dispositivos de activación para cada regadera. 
Un tipo tiene una confiabilidad de 0.9; es decir, la probabi- 
lidad de que se active cuando debe el aspersor es 0.9. El otro 
tipo, que opera independientemente del primer tipo, tiene 
una confiabilidad de 0.8. Si se dispara cualquier dispositivo, 
el aspersor se activará. Suponga que empieza un fuego cer- 
ca de una regadera. 


a) ¿Cuál es la probabilidad de que la regadera se active? 
b) ¿Cuál es la probabilidad de que la regadera no se active? 


c) ¿Cuál es la probabilidad de que ambos dispositivos de 
activación trabajen adecuadamente? 


d) ¿Cuál es la probabilidad de que sólo el dispositivo con 
0.9 de confiabilidad trabaje adecuadamente? 


Una cadena de restaurantes de comida rápida tiene 600 ne- 
gocios en los Estados Unidos. En la tabla siguiente se clasi- 
fican las ciudades por el tamaño y la ubicación y presenta el 
número de restaurantes en ciudades para cada categoría. Se 
elige aleatoriamente un restaurante de los 600 para hacer 
una prueba de mercado de un nuevo estilo de pollo. 


Región 
Población de la ciudad NE SE SO NO 
Debajo de 50 000 30 35 15 5 
50 000-500 000 60 90 70 30 


Arriba de 500 000 150 25 30 60 


a) Si el restaurante está ubicado en una ciudad con una po- 
blación de arriba de 500 000, ¿cuál es la probabilidad de 
que esté en el noreste? 


b) Si el restaurante está ubicado en el sureste, ¿cuál es la 
probabilidad de que esté en una ciudad que tenga una 
población debajo de 50 000? 


c) Si el restaurante está ubicado en el suroeste, ¿cuál es la 
probabilidad de que esté en una ciudad que tenga una 
población de 500 000 o menos? 


d) Si el restaurante está ubicado en una ciudad con una po- 
blación de 500 000 o menos, ¿cuál es la probabilidad 
que esté en el suroeste? 


e) Si el restaurante está ubicado en el sur (ya sea en el SE 
o en el SO), ¿cuál es la probabilidad de que esté en una 
ciudad con una población de 50 000 o más? 


Las centrales nucleares tienen componentes superfluos en 
sistemas importantes para reducir la probabilidad de fallas 
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catastróficas. Suponga que una planta tiene dos sistemas de 
medición del nivel de refrigerante en el núcleo del reactor y 
que cada sistema de medición tiene una probabilidad de 
0.01 de fallar. Suponga que una causa potencial para que el 
sistema de medición falle es que los cables eléctricos que 
conducen del centro a la sala de control donde se ubican los 
sistemas de medición podrían quemarse. Alguien desea cal- 
cular la probabilidad de que ambos sistemas fallen y hace el 
cálculo siguiente: 


P(ambos sistemas 
de medición fallan) 


P(el primer sistema 
de medición falla) 


P(el segundo sistema 
de medición falla) 


= (0.01)(0.01) 
= 0.0001 


a) ¿Qué suposición se debe hacer en este cálculo? 


b) Explique por qué esta suposición probablemente no es- 
tá justificada en este caso. 


c) ¿Es la probabilidad 0.0001 posiblemente demasiado al- 
ta o demasiado baja? Explique. 


Con referencia al ejercicio 11, ¿es posible que la probabili- 
dad de que fallen ambos sistemas de medición sea más 
grande de 0.01? Explique. 


Un lote de diez componentes contiene tres que están defec- 
tuosos. Se extraen aleatoriamente dos componentes y se 
evalúan. Sea A el evento de que el primer componente ex- 
traído esté defectuoso y sea B el evento de que el segundo 
también lo esté. 


a) Determine P(A). 

b) Determine P(B|A). 

c) Determine P(A N B). 

d) Determine P(A* N B). 

e) Determine P(B). 

f) ¿Son A y B independientes? Explique. 


Un lote de mil componentes contiene 300 que están defec- 
tuosos. Se sacan aleatoriamente dos componentes y se eva- 
lúan. Sea A el evento de que el primer componente extraído 
esté defectuoso y sea B el evento de que el segundo también 
lo esté. 


a) Determine P(A). 
b) Determine P(B|A). 
c) Determine P(A N B). 


15. 


16. 


17. 


18. 


d) Determine P(A* N B). 
e) Determine P(B). 
f) Determine P(A|B). 


g) ¿Son A y B independientes? ¿Es razonable tratar a A y a 
B como si fueran independientes? Explique. 


En un lote de n componentes, 30% está defectuoso. Se ex- 
traen aleatoriamente dos componentes y se evalúan. Sea A 
el evento de que el primer componente extraído esté defec- 
tuoso y sea B el evento de que el segundo también lo esté. 
¿Para qué tamaño de lote n serán A y B cercanamente inde- 
pendientes: n = 100 n = 10 000? Explique. 


Dos inspectores de calidad supervisan fallas en artículos. Si 
se encuentra una, será detectada por el primer inspector con 
una probabilidad de 0.9 y por el segundo con probabilidad 
0.7. Suponga que los inspectores trabajan en forma inde- 
pendiente. 


a) Si un artículo tiene una falla, ¿cuál es la probabilidad de 
que la detecten ambos inspectores? 


b) Si un artículo tiene una falla, ¿cuál es la probabilidad de 
que la detecte al menos uno de los dos inspectores? 


c) Suponga que el segundo inspector revisa solamente los 
artículos que han sido aprobados por el primer inspec- 
tor. Si un artículo tiene una falla, ¿cuál es la probabili- 
dad de que el segundo inspector la detecte? 


Con referencia al ejercicio 16, suponga que ambos inspec- 
tores supervisan cada artículo y que si uno no tiene falla, 
entonces ningún inspector la detectará. 


a) Suponga que la probabilidad de que un artículo tenga fa- 
lla es 0.10. Si un artículo es aprobado por el primer ins- 
pector, ¿cuál es la probabilidad de que tenga en realidad 
falla? 


b) Suponga que la probabilidad de que un artículo tenga fa- 
lla es 0.10. Si un artículo es aprobado por ambos inspec- 
tores, ¿cuál es la probabilidad de que tenga en realidad 
una falla? 


Un programa de control de calidad en una línea de montaje 
de botellas de plástico implica inspeccionar botellas termi- 
nadas para detectar fallas, como huecos microscópicos. La 
proporción de botellas que tiene tal falla en realidad es de só- 
lo 0.0002. Si una botella tiene una falla, la probabilidad es 
0.995 de que no pasará la inspección. Si una botella no tie- 
ne falla, la probabilidad es 0.99 de que pasará la inspección. 


a) Si una botella no pasa la inspección, ¿cuál es la proba- 
bilidad de que tiene falla? 


19. 


20. 


b) ¿Cuál de las siguientes es la interpretación más correcta 
de la respuesta del inciso a)? 


i) La mayoría de las botellas que no pasan la inspección 
no tienen falla. 


ii) La mayoría de las botellas que pasan la inspección 
tienen falla. 


c) Si una botella pasa la inspección, ¿cuál es la probabili- 
dad de que no tenga falla? 


d) ¿Cuál de las siguientes es la interpretación más correcta 
de la respuesta del inciso c)? 


i) La mayoría de las botellas que no pasan la inspección 
tienen falla. 


ii) La mayoría de las botellas que aprueban la inspec- 
ción no tienen falla. 
e) Explique por qué una probabilidad pequeña en el inciso 
a) no es un problema, tan grande como una gran proba- 
bilidad del inciso c). 


Con referencia al ejemplo 2.25 (p. 80). 


a) Si a un hombre le sale la prueba negativa, ¿cuál es la 
probabilidad de que en realidad esté enfermo? 


b) Para muchas pruebas médicas, es un procedimiento 
usual repetir la prueba cuando sale positiva. Si las prue- 
bas que se repiten son independientes, ¿cuál es la proba- 
bilidad de que a un hombre le resulten positivas dos 
pruebas sucesivas si él está enfermo? 


c) Suponiendo que las pruebas repetidas son independien- 
tes, ¿cuál es la probabilidad de que a un hombre le sal- 
gan positivas dos pruebas sucesivas si no tiene la 
enfermedad? 


d) Si a un hombre le salen positivas dos pruebas sucesivas, 
¿cuál es la probabilidad de que tenga la enfermedad? 


Un sistema contiene dos componentes, A y B, conectados 
en serie, como se muestra en el diagrama. 


——T a a 


Suponga que A y B funcionan de manera independiente. Pa- 
ra que el sistema funcione, ambos componentes deben fun- 


cionar. 


a) Si la probabilidad de que A falle es 0.05 y la probabili- 
dad de que B falle es 0.03, determine la probabilidad de 
que el sistema funcione. 


b) Si tanto A como B tienen probabilidad p de fallar, ¿cuál 
debe ser el valor de p para que la probabilidad de que el 
sistema funcione sea 0.90? 
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c) Si tres componentes están conectados en serie y cada 
uno tiene probabilidad p de fallar, ¿cuál debe ser el va- 
lor de p para que la probabilidad de que el sistema fun- 
cione sea 0.90? 


Un sistema contiene dos componentes, C y D, conectados 
en paralelo como se muestra en el diagrama. 


Cc 


D 


Suponga que C y D funcionan de manera independiente. 
Para que el sistema funcione, deben funcionar C o D. 


a) Si la probabilidad de que C falle es 0.08 y la probabili- 
dad de que D falle es 0.12, encuentre la probabilidad de 
que el sistema funcione. 


b) Si tanto C como D tienen probabilidad p de fallar, ¿cuál 
debe ser el valor de p para que la probabilidad de que el 
sistema funcione sea 0.997 


c) Si tres componentes están conectados en paralelo, fun- 
cionan de manera independiente y cada uno tiene una 
probabilidad p de fallar, ¿cuál debe ser el valor de p pa- 
ra que la probabilidad de que el sistema funcione sea 
0.997 


d) Silos componentes funcionan independientemente y ca- 
da componente tiene una probabilidad de fallar de 0.5, 
¿cuál es el número mínimo de componentes que se de- 
be conectar en paralelo para que la probabilidad de que 
el sistema funcione sea de al menos 0.99? 


Un sistema consta de cuatro componentes conectados, co- 
mo se muestra en el diagrama siguiente. 


AH B 


D 


Suponga que A, B, C y D funcionan de manera independien- 
te. Si las probabilidades de que A, B, C y D fallen son 0.10, 
0.05, 0.10 y 0.20, respectivamente, ¿cuál es la probabilidad 
de que el sistema funcione? 


Si A y B son eventos independientes, pruebe que los si- 
guientes pares de eventos son independientes: A* y B, A y B* 
y Al y B*. 
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2.4 Variables aleatorias 


En muchos casos es deseable asignar un valor numérico a cada resultado de un experimento. 
Esta asignación se llama variable aleatoria. Para aclarar la idea se presenta un ejemplo. Su- 
ponga que un ingeniero eléctrico tiene seis resistores a la mano. Tres de ellos tienen etiqueta 
de 10 22 y los otros tres tienen etiqueta de 20 (2. El ingeniero quiere conectar un resistor de 
10 Q y un resistor de 20 (2 en serie, para crear una resistencia de 30 (2. Ahora se supone que, 
en efecto, los tres resistores etiquetados con 10 (2 tienen las resistencias reales de 9, 10 y 11 Q 
y que los tres resistores etiquetados con 20 (2 tienen las resistencias reales de 19, 20 y 21 Q. 
El proceso para seleccionar un resistor de cada tipo es un experimento cuyo espacio muestral 
consta de nueve resultados igualmente probables. El espacio muestral se presenta en la tabla 
siguiente. 


Resultado Probabilidad 
(9, 19) 1/9 
(9, 20) 1/9 
(9, 21) 1/9 
(10, 19) 1/9 
(10, 20) 1/9 
(10, 21) 1/9 
(11, 19) 1/9 
(11, 20) 1/9 
(11,21) 1/9 


Ahora lo que es importante para el ingeniero de este experimento es la suma de las dos 
resistencias, en vez de sus valores individuales. Por tanto, se asigna a cada resultado un nú- 
mero igual a la suma de las dos resistencias seleccionadas. Esta asignación se representa por 
la letra X y se presenta en la tabla siguiente. 


Resultado Xx Probabilidad 
(9, 19) 28 1/9 
(9, 20) 29 1/9 
(9, 21) 30 1/9 
(10, 19) 29 1/9 
(10, 20) 30 1/9 
(10, 21) 31 1/9 
(11, 19) 30 1/9 
(11, 20) 31 1/9 
(11,21) 32 1/9 


La función X, que asigna un valor numérico a cada resultado en el espacio muestral, es 
una variable aleatoria. 
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Una variable aleatoria asigna un valor numérico a cada resultado en un espacio 
muestral. 


Se acostumbra denotar a las variables aleatorias con letras mayúsculas. Las letras X, Y y Z se 
usan con más frecuencia. 

Se puede calcular las probabilidades para las variables aleatorias de una manera obvia. 
En el ejemplo anterior, el evento X = 29 corresponde al evento ((9, 20), (10, 19)) del espa- 
cio muestral. Por tanto, P(X = 29) = P [((9, 20), (10, 19))] = 2/9. 


Haga una lista de los valores posibles de la variable aleatoria X y determine la probabilidad 
para cada uno de ellos. 


Solución 

Los valores posibles son 28, 29, 30, 31 y 32. Para encontrar la probabilidad de uno de estos 
valores, se suman las probabilidades de los resultados en el espacio muestral que correspon- 
den al valor. Los resultados están en la tabla siguiente. 


X P(X = x) 
28 1/9 
29 2/9 
30 3/9 
31 2/9 
32 1/9 


La tabla de probabilidades del ejemplo 2.30 contiene toda la información necesaria pa- 
ra calcular cualquier probabilidad que considere a la variable aleatoria X. Observe que los re- 
sultados del espacio muestral no se presentan en la tabla. Cuando se conocen las probabilidades 
en relación con una variable aleatoria, generalmente no se piensa en el espacio muestral: só- 
lo se concentra uno en las probabilidades. 

Hay dos tipos importantes de variables aleatorias: discretas y continuas. Una variable 
aleatoria discreta es aquella cuyos valores posibles forman un conjunto discreto; en otras pa- 
labras, los valores se pueden ordenar y existen separaciones entre los valores adyacentes. La 
variable aleatoria X, que se acaba de describir, es discreta. En contraparte, los valores posi- 
bles de una variable aleatoria continua siempre están contenidos en un intervalo; es decir, son 
todos los puntos entre dos números. Se proporcionan definiciones precisas de estas clases de 
variables aleatorias posteriormente en esta sección. 

A continuación se presentan más ejemplos de variables aleatorias. 


Con frecuencia los chips de computadora tienen imperfecciones en su superficie. Para cierto 
tipo de chip de computadora, 9% no tiene imperfecciones, 22% contiene una imperfección, 
26% presenta dos imperfecciones, 20% contiene tres imperfecciones, 12% tiene cuatro im- 


90 


CAPÍTULO 2 Probabilidad 


perfecciones y 11% presenta cinco imperfecciones. Sea Y el número de imperfecciones en un 
chip elegido aleatoriamente. ¿Cuáles son los valores posibles de Y? ¿Yes discreto o continuo? 
Determine P(Y = y) para cada valor posible y. 


Solución 

Los valores posibles para Y son los enteros 0, 1, 2, 3, 4 y 5. La variable aleatoria Y es discre- 
ta, ya que solamente toma valores enteros. A 9% de los resultados en el espacio muestral se 
le asigna el valor 0. Por tanto, P(Y = 0) = 0.09. Similarmente P(Y = 1) = 0.22, P(Y = 2) = 
0.26, P(Y = 3) = 0.20, P(Y = 4) = 0.12 y P(Y = 5) = 0.11. 


Cierto tipo de disco magnético debe funcionar en un ambiente donde está expuesto a gases 
corrosivos. Se sabe que 10% de estos discos tiene tiempos de vidas menores que o iguales a 
100 horas, 50% lo tiene mayor a 100 horas, pero menor o igual a 500, y 40% incluye tiem- 
pos superiores a 500 horas. Sea Z el número de horas en tiempo de vida de un disco elegido 
aleatoriamente. ¿Zes continua o discreta? Determine P(Z < 500). ¿Se pueden calcular todas 
las probabilidades para Z? Explique. 


Solución 

El tiempo de vida de un componente no está limitado a una lista de valores discretamente es- 
paciados; Zes continua. De todos los componentes, 60% tiene vidas menores o iguales a 500 
horas. Por tanto, P(Z < 500) = 0.60. No se tiene la información suficiente para calcular todas 
las probabilidades para Z. Se pueden calcular algunas de ellas; por ejemplo, P(Z < 100) = 
0.10, P(100 < Z< 500) = 0.50 y P(Z > 500) = 0.40. Pero no se sabe, por ejemplo, la propor- 
ción de componentes que tiene tiempos de vida entre 100 y 200 horas, o entre 200 y 300 horas, 
así que no se puede encontrar la probabilidad de que la variable aleatoria Z tenga cualquiera 
de estos intervalos. Para calcular todas las probabilidades de Z, se necesitaría calcular la pro- 
babilidad para cada intervalo posible; por ejemplo, PQ00 <Z<300), PQ00<Z< 201), PQ00 
< Z< 200.1) y así sucesivamente. Se verá cómo se puede hacer lo anterior en esta sección, 
cuando se analicen las variables aleatorias continuas. 


Variables aleatorias y poblaciones 


Con frecuencia es útil pensar en un valor de una variable aleatoria como que se ha seleccio- 
nado de una población. Por ejemplo, considere la variable aleatoria Y descrita en el ejemplo 
2.31. Observar un valor para esta variable aleatoria es como seleccionar un valor de una po- 
blación que consta de los enteros 0, 1, 2, 3, 4 y 5, en las proporciones siguientes: 0”s, 9%; 1's, 
22%; 2”s, 26%; 3"s, 20%; 4”s, 12%; y S”s, 11%. Para una variable aleatoria continua es ade- 
cuado imaginar una población infinita que contiene a todos los valores posibles de la variable 
aleatoria. Por ejemplo, para la variable aleatoria Z del ejemplo 2.32 se podría imaginar una 
población que contenga a todos los números positivos, con 10% de los valores de población 
menores o iguales a 100, 50% superiores a 100 pero menores o iguales a 500, y 40% mayo- 
res a 500. La proporción de valores de la población en cualquier intervalo sería igual a la pro- 
babilidad de que la variable Z está en ese intervalo. 

Los métodos para trabajar con variables aleatorias son diferentes para variables aleato- 
rias discretas y continuas. Se inicia con las variables aleatorias discretas. 
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Variables aleatorias discretas 


Se inicia con la definición de una variable aleatoria discreta. 


Definición 


Una variable aleatoria es discreta si sus valores posibles constituyen un conjunto dis- 


creto. Lo anterior significa que si los valores posibles se ordenan, hay una separación en- 
tre cada valor y el próximo. El conjunto de valores posibles podría ser infinito; por ejem- 
plo, el conjunto de todos los enteros o el conjunto de todos los enteros positivos. 


Es común que los valores posibles de una variable aleatoria discreta sean un conjunto 
de enteros. Para cualquier variable aleatoria discreta, si se especifica la lista de sus valores po- 
sibles junto con la probabilidad que tiene la variable aleatoria en cada uno de estos valores, 
entonces se ha descrito completamente a la población a partir de la cual se seleccionó a la va- 
riable aleatoria. Esto se ilustra con un ejemplo. 

El número de fallas en un alambre de cobre de 1 pulg de longitud, fabricado en proce- 
so específico, varía de alambre en alambre. En conjunto, 48% de los alambres producidos no 
tiene falla, 39% presenta una, 12% fue detectado con dos y 1% tiene tres. Sea X el número de 
fallas en una pieza de alambre seleccionada aleatoriamente. Entonces 


PíX=0=048% PO=b=039 Pi=2=01M PX=%=001 


La lista de valores posible 0, 1, 2, 3, junto con las probabilidades para cada uno, proporciona 
una descripción completa de la población de la que se tomó a X. Esta descripción se conoce 
como función de masa de probabilidad. 


Definición 


La función de masa de probabilidad de una variable aleatoria discreta X es la función 
pGo) = P(X = x). A veces a la función de masa de probabilidad se le llama distribución 
de probabilidad. 


Por tanto, para la variable aleatoria X que representa el número de fallas en una longi- 
tud de alambre, p(0) = 0.48, p(1) = 0.39, p(2) = 0.12, p(3) = 0.01 y p(x) = 0 para cualquier 
valor de x diferente de O, 1, 2 o 3. Observe que si se suman los valores de la función de ma- 
sa de probabilidad sobre todos los valores posibles de X, la suma es igual a 1. Esto es cierto 
para cualquier función de masa de probabilidad. La razón es que al sumar los valores de una 
función de masa de probabilidad sobre todos los valores posibles de la variable aleatoria co- 
rrespondiente, se obtiene la probabilidad de que la variable aleatoria es igual a uno de sus va- 
lores posibles y esta probabilidad es siempre igual a 1. 

La función de masa de probabilidad se puede representar por un diagrama en el cual se 
dibuja una recta vertical para cada uno de los valores posibles de la variable aleatoria. Las al- 
turas de las rectas son iguales a las probabilidades de los valores correspondientes. La inter- 
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pretación física de este diagrama es que cada recta representa una masa igual a su altura. En 
la figura 2.7 se muestra un diagrama de la función de masa de probabilidad de la variable alea- 
toria X. 


Probabilidad 
o 
¡09) 
T 


0 1 2 3 
Número de fallas 


FIGURA 2.7 Función de masa de probabilidad de X, el número de fallas en una elección aleato- 
ria de una pieza de alambre. 


Función de distribución acumulativa 
de una variable aleatoria discreta 


La función de masa de probabilidad especifica la probabilidad de que una variable aleatoria 
sea igual a un valor determinado. La función de distribución acumulativa especifica la pro- 
babilidad de que una variable aleatoria sea menor o igual a un valor dado. La función de dis- 
tribución acumulativa de la variable aleatoria X es la función F(x) = P(X< x). 


Sea F(x) la función de distribución acumulativa de la variable aleatoria X que representa el 
número de fallas en un alambre elegido aleatoriamente. Determine F(2) y F(1.5). 


Solución 
Puesto que F(2) = P(X < 2) se necesita encontrar P(X < 2). Con dicho propósito se suman las 
probabilidades de los valores de X que son menores o iguales a 2, a saber, 0, 1 y 2. Por tanto, 


F(2) = P(X < 2) 
= 0.48 + 0.39 + 0.12 
= 0.99 


Ahora F(1.5) = P(X < 1.5). Por tanto, para calcular F(1.5) se debe sumar las probabi- 
lidades para los valores de X que son menores o iguales a 1.5, que son O y 1. Por lo que, 
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F(1.5) = P(X < 1.5) 
=PX=0)+PX=D 
= 0.48 + 0.39 
= 0.87 


En general, para cualquier variable aleatoria discreta X, la función de distribución acu- 
mulativa F(x) se puede calcular sumando las probabilidades de todos los valores posibles de 
X que son menores o iguales a x. Observe que F(x) está definido para cualquier número x, no 
exactamente para los valores posibles de X. 


Sea X una variable aleatoria discreta. Entonces 


m La función de masa de probabilidad de X es la función p(x) = P(X = x). 


mM La función de distribución acumulativa de X es la función F(x) = P(X< x). 


E F(x)= S pt) = y P(X =1). 


1<x 1<x 
m Y p(x)= y P(X = x) = 1, donde la sumatoria se realiza sobre todos los valo- 


res posibles de X. 


Dibuje la función de distribución acumulativa F(x) de la variable aleatoria X que representa 
el número de fallas en un alambre elegido aleatoriamente. 


Solución 
Primero se calcula F(x) para cada uno de los valores posibles de X, que son O, 1, 2 y 3. 


F(0) = P(X < 0) = 0.48 

F(1) = P(X < 1) = 0.48 + 0.39 = 0.87 

F(Q)= P(X < 2) = 0.48 + 0.39 + 0.12 = 0.99 
F(3) = P(X < 3) = 0.48+0.39+ 0.124 0.01 = 1 


Para cualquier valor x, se calcula a F(x) sumando las probabilidades de todos los valores po- 
sibles de X que son menores o iguales a x. Por ejemplo, si 1 <x<2, los valores posibles de 
X que son menores o iguales a x son 0 y 1, por lo que F(x) = P(X = 0) + P(X = 1) = F() 
= 0.87. Por tanto, 
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0 x<0 
0.48 O<x<l 

F(x) = 4 0.87 l<sx<2 
0.99 2Ex<3 
1 x>3 


En la figura siguiente se presenta una gráfica de F(x). 


1 
0.99 E —_——— 
0.87 - —_————o 


0.48 ————0 


Para una variable aleatoria discreta, la gráfica de F(x) consta de una serie de rectas ho- 
rizontales (llamadas “pasos”) con saltos en cada uno de los valores posibles de X. Observe 
que el tamaño del salto en cualquier punto x es igual al valor de la función de masa de proba- 
bilidad p(x) = P(X = x). 


Media y varianza para variables aleatorias discretas 


En la sección 1.3 se vio que la media de una muestra es aproximadamente igual a la compo- 
nente horizontal del centro de masa de un histograma de la muestra, que es el punto en el eje 
x en el cual el histograma mantendría el equilibrio si se sostuviera de allí. Por analogía, se de- 
fine a la media poblacional como la componente horizontal del centro de masa de la gráfica 
de su función de masa de probabilidad de una variable aleatoria discreta. La media poblacio- 
nal de una variable aleatoria X que también se puede llamar esperanza, o valor esperado, de 
X y que se denota por uz, por E(X), o simplemente por u. Á veces se puede eliminar la pala- 
bra “poblacional” y sólo se hará referencia a la media poblacional como la media. 


Determine la media de la variable aleatoria X que representa el número de fallas en una pie- 
za de alambre elegida aleatoriamente. 


Solución 

La media es el centro de masa de la gráfica de la función de masa de probabilidad (figura 2.7). 
El centro de masa se calcula multiplicando la altura de cada recta por su valor en el eje hori- 
zontal y después se suman los productos. Los valores son 0, 1, 2 y 3. Las alturas son P(X = 
0) = 0.48, P(X = 1) = 0.39, P(X = 2) = 0.12 y P(X = 3) = 0.01. La media es, por tanto, 
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px =0-P(X=0)+1-P(X=1)+2:P(X =2) + 3:P(X =3) 
= (0)(0.48) + (1)(0.39) + (2)(0.12) + (3)(0.01) 
= 0.6600 


En general, la media de una variable aleatoria discreta se encuentra al multiplicar cada 
valor posible de la variable aleatoria por su probabilidad y después se suman. 


Definición 
Sea X una variable aleatoria discreta con función de masa de probabilidad 
px) = P(X = x). 


La media de X está dada por 
pz =N xP(X=x) (2.29) 


donde la sumatoria se hace sobre todos los valores posibles de X. 
A veces la media de X se llama esperanza, o valor esperado, de X y también se de- 
nota por £(X) o por ul. 


En la sección 1.3 se mostró que la varianza de una muestra es aproximadamente igual 
al momento de inercia del histograma de la muestra alrededor de la media de la muestra. Se 
define a la varianza poblacional de una variable aleatoria discreta como el momento de iner- 
cia de la gráfica de su función de masa de probabilidad con respecto a la media poblacional 
1. La varianza poblacional de una variable aleatoria X con frecuencia se denomina simple- 
mente varianza de X. Se puede denotar por a. por V(X), o simplemente por 07. Para calcu- 
larla se multiplica la altura de cada recta del diagrama de la función de masa de probabilidad 
por el cuadrado de su distancia horizontal a la poblacional y después se suman los productos. 
Es más fácil de comprender esto cuando se presenta en una fórmula: 


0 == PA =x) 
XxX 
Realizando un poco de álgebra se puede obtener una fórmula alternativa 


e = N PL = x) — ie 
Xx 
Al final de esta sección se presenta una deducción de esta fórmula. 

También se define la desviación estándar poblacional como la raíz cuadrada de la va- 
rianza poblacional. Se denota a la desviación estándar de la población de una variable aleato- 
ria X por Gx o simplemente por O. Como con la media, a veces se eliminará la palabra 
“poblacional” y sólo se denominará a la poblacional y la desviación estándar poblacional co- 
mo la varianza y la desviación estándar, respectivamente. 
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Sea X una variable aleatoria discreta con función de masa de probabilidad 
p(x) = P(X = x). Entonces 


Mm La varianza de X está dada por 
0% = a -—ux?P(X =x) (2.30) 
m Una fórmula alternativa para la varianza está dada por 


=D APA =x) - pi (2.31) 


Ém La varianza de X también se puede denotar por V(X) o por O?. 


mM La desviación estándar es la raíz cuadrada de la varianza: ox = y 0%. 


Determine la varianza y la desviación estándar para la variable aleatoria X que representa el 
número de fallas de una pieza de alambre elegida aleatoriamente. 


Solución 
En el ejemplo 2.35 se calculó la media de X con un valor de Ux = 0.6600. Se encuentra la va- 
rianza utilizando la ecuación (2.30): 


o% = (0— 0.6600)? P(X =0) + (1 — 0.6600)? P(X = 1) + (Q — 0.6600)? P(X = 2) 
+ (3 — 0.6600)? P(X = 3) 


= (0.4356)(0.48) + (0.1156)(0.39) + (1.7956)(0.12) + (5.4756)(0.01) 
= 0.5244 


La desviación estándar es xy =40.5244 = 0.724. 


Use la fórmula alternativa, ecuación (2.31), para calcular la varianza de X, del número de fa- 
llas de un alambre elegido aleatoriamente. 


Solución 
En el ejemplo 2.35 se calculó que la media tenía un valor de xy = 0.6600. La varianza es, por 
tanto, 
0% =00P(X =0)+ PP(X =1)+2P(X =2)+ 32P(X = 3) — (0.6600)? 
= (0)(0.48) + (1)(0.39) + (4)(0.12) + (9)(0.01) — (0.6600)? 
= 0.5244 
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Un resistor en un circuito dado tiene una resistencia en el rango de 99 (2-101 Q. Un ingenie- 
ro obtiene dos resistores. La probabilidad de que ambos satisfagan la especificación es 0.36, 
la probabilidad de que exactamente uno de ellos satisfaga la especificación es 0.48 y la pro- 
babilidad de que ninguno de ellos lo haga es 0.16. Sea X el número de resistores que satisface 
la especificación. Determine la función de masa de probabilidad, media, varianza y desvia- 
ción estándar de X. 


Solución 
La función de masa de la probabilidad es P(X = 0) = 0.16, P(X = 1) = 0.48, P(X = 2) = 
0.36 y P(X = x) =0 parax + 0, 1 02. La media es 


ux = (0)(0.16) + (1)(0.48) + (2)(0.36) 
= 1.200 


La varianza es 
o? = (0— 1.200)(0.16) + (1 — 1.200)?(0.48) + (2 — 1.200)(0.36) 
= 0.4800 
La desviación estándar es gy = 0.4800 = 0.693. 


Histograma de probabilidad 


Cuando los valores posibles de una variable aleatoria discreta están espaciados uniformemen- 
te, la función de masa de probabilidad se puede representar por medio de un histograma, con 
rectángulos centrados en los valores posibles de la variable aleatoria. El área de un rectángulo 
centrado en un valor x es igual a P(X = x). Este histograma se llama un histograma de pro- 
babilidad, ya que las áreas representan probabilidades. En la figura 2.7 se presenta el diagra- 
ma de la función de masa de probabilidad de una variable aleatoria X que representa el número 
de fallas en un alambre. La figura 2.8 presenta un histograma de probabilidad para esta varia- 
ble aleatoria. 

La probabilidad de que el valor de una variable aleatoria esté en un intervalo específ1- 
co está dada por el área bajo el histograma de probabilidad. En el ejemplo 2.39 se ilustra la 
idea. 


Determine la probabilidad de que un alambre elegido aleatoriamente tenga más de una falla. 
Indique esta probabilidad como un área bajo el histograma de probabilidad. 


Solución 

Se desea encontrar P(X > 1). Puesto que ningún alambre tiene más de tres fallas, la propor- 
ción de que los alambres tengan más de una se puede encontrar al sumar la proporción de que 
tengan dos más la proporción de que tengan tres. Simbólicamente, P(X> 1) = P(X = 2) + 
P(X = 3). La función de masa de probabilidad especifica que P(X = 2) = 0.12 y P(X = 3) 
= 0.01. Por tanto, P(X > 1) = 0.12 + 0.01 = 0.13. 
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FIGURA 2.8 Histograma de probabilidad para X, el número de fallas en una pieza de alambre 
elegida aleatoriamente. Compárela con la figura 2.7. 


Esta probabilidad está dada por el área bajo el histograma de probabilidad que corresponde a 
esos rectángulos centrados en valores superiores a 1 (véase la figura 2.9). Hay dos de estos 
rectángulos; sus áreas son P(X = 2) = 0.12 y P(X = 3) = 0.01. Ésta es otra manera de mos- 
trar que P(X > 1) = 0.12 + 0.01 = 0.13. 


0.5 —- 
04 - 
03 P 


0.2 - 


0.1 P 


0 == 


0 1 2 3 


FIGURA 2.9 Histograma de probabilidad para X, el número de fallas en una pieza de alambre 
elegida aleatoriamente. El área que corresponde a valores de X mayores que 1 está sombreada. 
Esta área es igual a P(X > 1). 


En el capítulo 4 se verá que las probabilidades para las variables aleatorias discretas se 
pueden aproximar a veces calculando el área bajo una curva. Representar las probabilidades dis- 
cretas con un histograma de probabilidad hará más fácil comprender cómo se hace esto último. 
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Variables aleatorias continuas 


En la tabla 1.4 (en la sección 1.3) se presentaron intervalos de clase para las emisiones, en 
gramos de partículas por galón de combustible consumido, de una muestra de 62 vehículos. 
Observe que las emisiones constituyen una variable continua, ya que sus valores posibles no 
están restringidos a algún conjunto discretamente espaciado. Los intervalos de clase son ele- 
gidos para que cada intervalo contenga un número razonablemente grande de vehículos. Si la 
muestra fuera más grande, se podrían hacer los intervalos más angostos. En particular, si se 
tuviera información sobre toda la población, que contiene millones de vehículos, se podrían 
hacer los intervalos extremadamente angostos. El histograma parecería entonces muy suave y 
se podría aproximar con una curva, como la que se muestra en la figura 2.10. 


FIGURA 2.10 Histograma para una gran población continua que se podría dibujar con 
rectángulos extremadamente angostos y debería parecerse a esta curva. 


Si se hubiera elegido aleatoriamente un vehículo de esta población para medir sus emi- 
siones, el nivel de emisiones X sería una variable aleatoria. La probabilidad de que X esté en- 
tre cualesquiera dos valores a y b es igual al área bajo el histograma entre a y b. Debido a que 
el histograma en este caso se representa por una curva, la probabilidad se encontraría median- 
te el cálculo de una integral. 

La variable aleatoria X descrita aquí es un ejemplo de una variable aleatoria continua. 
Ésta se define como una variable aleatoria cuyas probabilidades se representan por áreas bajo 
una curva. Esta curva se llama función de densidad de probabilidad. Como consecuencia 
de que la función de densidad de probabilidad es una curva, los cálculos de las probabilidades 
implican integrales, en vez de las sumatorias que se usan en el caso discreto. 


Definición 
Una variable aleatoria es continua si sus probabilidades están dadas por áreas bajo 
una curva. La curva se llama función de densidad de probabilidad para la variable 
aleatoria. 


A veces la función de densidad de probabilidad se llama distribución de proba- 
bilidad. 
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Cálculo de probabilidades con la función 
de densidad de probabilidad 


Sea X una variable aleatoria continua. Sea la función f(x) la función de densidad de probabi- 
lidad de X. Sean a y b cualesquiera dos números, con a < b. 

La proporción de la población cuyos valores de X están entre a y b están dados por 
0 f(x) dx, y el área bajo la función de densidad de probabilidad entre a y b. Ésta es la pro- 
babilidad de que la variable aleatoria X tome un valor entre a y b. Observe que el área bajo la 
curva no depende de si los puntos finales a y b estén incluidos en el intervalo. Por tanto, las 
probabilidades que implican a X no dependen de si se incluyen a los puntos finales. 


Sea X una variable aleatoria continua con función de densidad de probabilidad ((x). 
Sean a y b cualesquiera dos números, con a < b. Entonces 


b 
Pas X=<b)=PlasX<b=Pa<Xx=sb=Pa<x<b=/f FO) dx 


Además, 


P(X <a)=P(X <a) = 'ñ F00) dx (2.32) 


P(X > a)=P(X>a)= Ñ Fx) dx (2.33) 


Si Ax) es la función de densidad de probabilidad de una variable aleatoria X, entonces 
el área bajo toda la curva desde —oo a co es la probabilidad de que el valor de X esté entre —oo 
y co, Esta probabilidad debe ser igual a 1, ya que el valor de X siempre está entre —oo y co, Por 
tanto, el área bajo toda la curva f(x) es igual a 1. 


Sea X una variable aleatoria continua con función de densidad de probabilidad ((x). 


Entonces 
[0,0] 
Ó FO)dx=1 
0% 


Se perfora un hueco en un componente de una hoja de metal y después se inserta un eje a tra- 
vés del hueco. La holgura del eje es igual a la diferencia entre el radio del hueco y el radio 
del eje. Sea X la variable aleatoria que denota a la holgura, en milímetros. La función de den- 
sidad de probabilidad de X es 
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0 de otro modo 


y 125(1=x%  O<x=<1l 


Los componentes con holguras superiores a 0.8 mm se deben desechar. ¿Cuál es la propor- 
ción de componentes que serán desechados? 


Solución 

En la figura 2.11 se presenta la función de densidad de probabilidad de X. Observe que la den- 
sidad f(x) es O para x< 0 y para x> 1. Esto indica que las holguras siempre están entre O y 1 
mm. La proporción de componentes que se debe desechar es P(X > 0.8), que es igual al área 
bajo la función de densidad de probabilidad a la derecha de 0.8. 


0 0.2 0.4 0.6 0.8 1 


FIGURA 2.11 Gráfica de la función de densidad de probabilidad de X, la holgura 
de un eje. El área sombreada es igual a P(X > 0.8). 


Esta área está dada por 


P(X > 0.8) = Ñ Fo) dx 
0.8 


j 
Sl 1.25(1— x%) dx 
0 


8 


1.25 có 
= 1; x=> 
5 


= 0.0819 


1 


0.8 


Función de distribución acumulativa 

de una variable aleatoria continua 

La función de distribución acumulativa de una variable aleatoria continua X es F(x) = P(X< 
x), al igual que para una variable aleatoria discreta. Para esta última, F(x) se puede encontrar 
al sumar los valores de la función de masa de probabilidad. Para una variable aleatoria conti- 
nua, el valor de F(x) se obtiene al integrar la función de densidad de probabilidad. Puesto que 
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F(x) = P(X < x) y usando la ecuación (2.32) se tiene que F(x) = Fl Ft) dt, donde (1) es 
la función de densidad de probabilidad. 


Definición 


Sea X una variable aleatoria continua con función de densidad de probabilidad f(x). La 
función de distribución acumulativa de X es la función 


F(x) == P(X< x) = E FO dt (2.34) 


Con referencia al ejemplo 2.40, determine la función de distribución acumulativa F(x) y di- 
bújela. 


Solución 

La función de densidad de probabilidad X está dada por (1) = O si 1<0, (0) = 1.25(1 — £) si 
0O<t<1ly ft) =0si 1 >1. La función de distribución acumulativa está dada por F(x) = 
E o F(t) dt. Puesto que f(1) está definida por partes en tres intervalos diferentes, el cálculo de 


la función de distribución acumulativa implica tres casos distintos. 
Six<0: 


SiO<x=<l: 


F(x) = f F(0)dt 


0 x 

el ruar+ | FU) dt 
=00 0 
0 x 

sl odr+/ 1.25(1—1% dt 
=00 0 


Bn | 
=0+1.25|1- — 
Ñ ( 5) 
el 
=125(x-5) 
5 


Fx) = f F(0 di 


0 1 E 
=/ ruar+ | rar+ | Ft) dt 
00 0 1 


0 


Six > l: 
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0 1 Ea 
al odr+/ 125a ear / Odt 
—00 0 1 


1 


(5 
=0+1.25 (+-5) +0 
0 
=0+1+0 
=1 
Por tanto, 
0 x<0 
¿3 
F(x) = 125 (+5) O<x<l 
1 x>1 


Aquí se presenta una gráfica de F(x). 


0 0.25 0.50 0.75 1 


Observe que la función de distribución acumulativa F(x) del ejemplo 2.41 representa 
una función continua si su gráfica no presenta ningún salto. Ésta es una característica de las 
variables aleatorias continuas. La función de distribución acumulativa de una variable aleato- 
ria continua será continua siempre, mientras que la función de distribución acumulativa de 
una variable aleatoria no continua nunca será continua. 


Con referencia al ejemplo 2.40, use la función de distribución acumulativa para encontrar la 
probabilidad de que la holgura del eje es menor a 0.5 mm. 


Solución 

Sea X la holgura del eje. Se tiene que encontrar P(X < 0.5). Éste es equivalente a encontrar 
F(0.5), donde F(x) es la función de distribución acumulativa. Usando los resultados del ejem- 
plo 2.41, F(0.5) = 1.25(0.5-0.5%/5) = 0.617. 


Media y varianza para variables aleatorias continuas 


La poblacional y la varianza de una variable aleatoria continua están definidas de la misma 
forma que para una variable aleatoria discreta, excepto que se usa la función de densidad de 
probabilidad en lugar de la función de masa. Específicamente, si X constituye una variable 
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aleatoria continua, su poblacional se define como el centro de masa de su función de densi- 
dad de probabilidad y su poblacional representa el momento de inercia con respecto a un eje 
vertical que pasa a través del centro de masa. Las fórmulas son análogas a las ecuaciones de 
la (2.29) a la (2.31), con las sumatorias reemplazadas por integrales. 

Como en el caso de las variables aleatorias discretas, a veces se eliminará la palabra 
“poblacional” y se hará referencia a la media poblacional, a la varianza poblacional y la des- 
viación poblacional sólo como la media, la varianza y la desviación estándar, respectivamente. 


Definición 
Sea X una variable aleatoria continua con función de densidad de probabilidad Ax). 
Entonces la media de X está dada por 


px = F xf(Q0) dx (2.35) 


00 


A la media de X algunas veces se le llama esperanza, o valor esperado, de X y se pue- 
de denotar también por ES) o por u. 


Definición 
Sea X una variable aleatoria continua con función de densidad de probabilidad f(x). 


Entonces 
mM La varianza de X está dada por 


00 
== dl (x — ux)Y f(x) dx (2.36) 
=00 
Mm Una fórmula alternativa para la varianza está dada por 
00 
ds il ode (2.37) 
=00 


mM La varianza de X también se puede denotar por VAS) o por o. 


mM La desviación estándar es la raíz cuadrada de la varianza: 0x = y 0%. 


Con referencia al ejemplo 2.40, determine la media y la varianza de la holgura. 


Solución 
En la ecuación (2.35), la media de la holgura está dada por 


n= xf(x) dx 


00 


1 
= / x[1.25(1 — x%)] dx 
0 
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Una vez que se ha calculado Ux = 0.4167, ahora se puede calcular oz. Es más fácil usar la 
fórmula alternativa, ecuación (2.37): 


[o,e) 
oz =/ x? f(x) dx — up? 
00 


1 
=/ 1?11.25(1 — x%)] dx — (0.4167)? 
0 
1 


— (0.4167)? 
0 


Mediana poblacional y percentiles 


En la sección 1.2 se definió la mediana de una muestra como el número de en medio, el pro- 
medio de los dos números intermedios, cuando los valores de la muestra están ordenados del 
más pequeño al más grande. Intuitivamente, la mediana de la muestra constituye el punto que 
divide a la muestra por la mitad. La mediana poblacional se define en forma similar. En rela- 
ción con la función de densidad de probabilidad, la mediana representa el punto para el que 
la mitad del área bajo la curva está a la izquierda y la otra mitad a la derecha. En este contex- 
to, si X es una variable aleatoria continua con función de densidad de probabilidad f(x), la me- 
diana de X es el punto x,, que resuelve la ecuación P(X < xm) = e FG) dx =0.5. 

La mediana es un caso especial de un percentil. Sea O < p< 100. El p-ésimo percentil de 
una población es el valor x, de forma que el p% de los valores de población sean menores o 
iguales a x,. Por tanto, si X es una variable aleatoria continua con función de densidad de pro- 
babilidad f(x), el p-ésimo percentil de X es el punto x, que resuelve la ecuación P(X < x,) = 


E f(x) dx = p/100. Observe que la mediana es el 50avo. percentil. La figura 2.12 mues- 
tra a la mediana y al 90avo. percentil para una población hipotética. 


Área =0.5 


Am X90 
a) b) 


FIGURA 2.12 a) La mitad de los valores de la población son menores que la mediana x,,. 
b) 90% de los valores de población que son menores que el 90avo. percentil xop. 
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Definición 
Sea X una variable aleatoria continua con función de masa de probabilidad Ax) y 
función de distribución acumulativa F(x). 
mM La mediana de X es el punto x,, que resuelve la ecuación 
Fm) = PS dm) = 5, f(x) dx = 0.5. 
EH Si p es cualquier número entre O y 100, el p-ésimo percentil es el punto x, que 
resuelve la ecuación F(x,) = P(X < xp) = e FO) dx = p/100. 


mM La mediana es el 50avo. percentil. 


Se observa que es posible construir variables aleatorias continuas para las cuales hay un 
intervalo de puntos que satisfacen la definición de la mediana o de un percentil. Tales varia- 
bles aleatorias rara vez se encuentran en la práctica. 


Cierta masa radiactiva emite partículas alfa periódicamente. El tiempo entre emisiones, en se- 
gundos, es aleatorio, con función de densidad de probabilidad 


Olo-922 x>0 
Fa) = 
0 x<0 
Determine la mediana del tiempo entre emisiones. Determine el 60avo. percentil de los tiempos. 


Solución 


La mediana x,, es la solución de “7. 


Am 


f(x) dx = 0.5. Por tanto, se debe resolver 


/ “0.10% dx =0.,5 
0 


e 99], =0.5 
1er =0,5 
rre DS 
—0. Lx =1n.0.5 
0.1x,n = 0.6931 
2 = 09318 


La mitad de los tiempos entre emisiones es menor a 6.931 s y la mitad es más grande. 
El 60avo. percentil x¿y es la solución de e f(x) dx =0.6. Al proceder como antes, 
se sustituye xóg por x,, y 0.6 por 0.5. Con lo que se obtiene 


1-9 =0.6 
¿9 = 04 


—0.1x60 = In 0.4 
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0.1x60 = 0.9163 
X60 = 9.163 s 


Sesenta por ciento de los tiempos entre emisiones es menor a 9.163 s y 40% es más grande. 


Deducción de la fórmula alternativa para la varianza 


Para deducir la ecuación (2.31) se inicia con la ecuación (2.30). 


0 =D 01 P(X=x) 


Al desarrollar el binomio al cuadrado (x — O se obtiene 
%=2 (0 — 2xfly + UDPO=x) 


Al distribuir el término P(X = x) sobre los términos entre paréntesis se tiene que 


n= LA OO = el PO=)] 


Sumando los términos por separado, 


o = OS =x) = SN 2xuxP(X =x)+ NES IES S) 


II AO O O AS 
ARPA =x) = 1x7, PX =x) = 430) = 1%. 


Sustituyendo en la ecuación (2.38) se obtiene 


e = OS =x)- 20 + % 


x 


Se concluye que 


0? = NP E 


x 


Para obtener la fórmula alternativa (2.37) a partir de la ecuación (2.36) para la varianza 
de una variable aleatoria continua, se pueden usar los mismos pasos; reemplazando 2: 
con J2.., y P(X = x) con f(o)dx. 


Ejercicios para la sección 2.4 


1. 


Determine si cada una de las siguientes variables aleatorias c) El puntaje del examen final de un estudiante elegido 
es discreta o continua. aleatoriamente de la clase de estadística de ingeniería 


a) El número de caras en 100 lanzamientos a “cara” o del último semestre. 


“cruz” de una moneda. d) La edad de un estudiante elegido aleatoriamente de la 


b) La longitud de una varilla elegida aleatoriamente de la Escuela de Minas, de Colorado. 


producción de un día. 
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c) La edad que tendrá un estudiante de la Escuela de Mi- 
nas, de Colorado, elegida aleatoriamente en su próximo 
cumpleaños. 


2. La tabla siguiente presenta la función de masa de probabi- 


lidad del número de defectos X en un tablero de circuitos 
impresos elegido aleatoriamente. 


x | 0 1 2 3 
p(x) | 0.5 0.3 0.1 0.1 


a) Determine P(X < 2). 
b) Determine P(X > 1). 
c) Determine ux. 


d) Determine 0%. 


. Una compañía de materiales químicos envía cierto disolven- 
te en tambores de diez galones. Sea X el número de tambo- 
res pedidos por un cliente elegido aleatoriamente. Suponga 
que X tiene la siguiente función de masa de probabilidad: 


x | 1 2 3 4 5 
p6) | 04 02 02 01 01 


a) Determine la media del número de tambores ordenados. 


b) Determine la varianza del número de tambores ordena- 
dos. 


c) Determine la desviación estándar del número de tambo- 
res ordenados. 


d) Sea Y el número de galones ordenados. Determine la 
función de masa de probabilidad de Y. 


e) Determine la media del número de galones ordenados. 


f) Determine la varianza del número de galones ordena- 
dos. 


£) Determine la desviación estándar del número de galones 
ordenados. 


. Un automóvil viejo con un motor de cuatro cilindros es lle- 
vado a un taller para ajustarlo. Sea X el número de cilindros 
con compresión baja. 


a) ¿Cuál de las tres funciones dadas en la tabla siguiente es 
una función de masa de probabilidad posible de X? Ex- 
plique. 


x 
0 1 2 3 4 


po 02 02 03 01 01 
po 01. 03 03 02 02 
ps) 01. 02 04 02 01 


b) Para la función de masa de probabilidad posible, calcule 
Mx Y 0% 


. Cierto tipo de componente está empaquetado en lotes de 


cuatro. Sea X el número de componentes que funcionan 
de modo adecuado en un lote elegido de manera aleatoria. 
Suponga que la probabilidad de que exactamente x componen- 
tes funcionen es proporcional a x; en otras palabras, supon- 
ga que la función de masa de probabilidad de X es dada por 


)= CX 
a (6 


donde c es una constante. 


x=1,2,3,04 


de otro modo 


a) Determine el valor de la constante c para que p(x) sea 
una función de masa de probabilidad. 


b) Determine P(X = 2). 


c) Determine la media del número de componentes que 
funcionan adecuadamente. 


d) Determine la varianza del número de componentes que 
funcionan adecuadamente. 


e) Determine la desviación estándar del número de compo- 
nentes que funcionan adecuadamente. 


. El producto de un proceso químico se supervisa continua- 


mente para asegurar que la concentración permanezca den- 
tro de los límites aceptables. Cada vez que la concentración 
se sale de los límites, el proceso se detiene y se calibra nue- 
vamente. Sea X el número de veces en una semana dada que 
el proceso se calibra nuevamente. La tabla siguiente presen- 
ta los valores de la función de distribución acumulativa F(x) 
de X. 


x FLO 
0 0.17 
1 0.53 
2 0.84 
3 0.97 
4 1.00 


a) ¿Cuál es la probabilidad de que el proceso se calibre 
nuevamente menos de dos veces durante una semana? 


b) ¿Cuál es la probabilidad de que el proceso se calibre 
nuevamente más de tres veces durante una semana? 


c) ¿Cuál es la probabilidad de que el proceso se calibre de 
nuevo exactamente una vez durante una semana? 


d) ¿Cuál es la probabilidad de que el proceso no se calibre 
nuevamente durante una semana? 


e) ¿Cuál es el número más probable de que ocurran nuevas 
calibraciones durante una semana? 


. En 100 días diferentes, un ingeniero especializado en el 
tránsito de automóviles cuenta el número de éstos que pa- 
san por cierto crucero entre las 5:00 y 5:05 p.m. Los resul- 
tados se presentan en la tabla siguiente. 


Número de Número Proporción 
automóviles de días de días 

0 36 0.36 

1 28 0.28 

2 15 0.15 

3 10 0.10 

4 7 0.07 

5 4 0.04 


a) Sea X el número de automóviles que pasan por el cruce- 
ro entre las 5:00 y las 5:05 p.m. en un día elegido alea- 
toriamente. Alguien sugiere que para cualquier entero 
positivo x, la de masa de probabilidad de X es p¡(x) = 
(0.2)(0.8)'. Usando esta función, calcule P(X = x) para 
valores de x de O a 5 inclusive. 


b) Otra persona sugiere que para cualquier entero positivo 
x, la función de masa de probabilidad es px) = 
(0.4)(0.6)'. Usando esta función, calcule P(X = x) para 
valores de x de O a 5 inclusive. 


c) Compare los resultados de los incisos a) y b) con los da- 
tos de la tabla. ¿Cuál función de masa de probabilidad 
parece ser el mejor modelo? Explique. 


d) Alguien dice que ninguna de las funciones es un buen 
modelo ya que ninguna coincide exactamente con los 
datos. ¿Esto es correcto? Explique. 


. Se seleccionan aleatoriamente chips de microprocesadores 
uno tras otro de una gran población y se prueban para deter- 
minar si son aceptables para determinada aplicación. El 90% 
de los chips en la población es aceptable. 
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a) ¿Cuál es la probabilidad de que el primer chip elegido 
sea aceptable? 


b) ¿Cuál es la probabilidad de que el primer chip sea in- 
aceptable y que el segundo sea aceptable? 


c) Sea X el número de chips que se prueba hasta incluir el 
primer chip aceptable. Determine P(X = 3). 


d) Determine la función de masa de probabilidad de X. 


. Con referencia al ejercicio 8, sea Y el número de chips pro- 


bados hasta incluir el segundo chip aceptable. 


a) ¿Cuál es el valor más pequeño posible de Y? 

b) ¿Cuál es la probabilidad de que Y tome ese valor? 

c) Sea X el número de chips que se prueba hasta incluir el 
primer chip aceptable. Determine P(Y = 3 x= 1). 

d) Determine P(Y = 3 |Ix = 2). 

e) Determine P(Y = 3). 


Se seleccionan aleatoriamente tres componentes, uno a la 
vez, de un gran lote. Cuando se selecciona cada componen- 
te, se prueba. Si pasa la prueba, ocurre un éxito (S); si no 
pasa la prueba, ocurre una falla (F). Suponga que 80% de 
los componentes del lote conseguirá pasar la prueba. Sea X 
el número de éxitos entre los tres componentes selecciona- 
dos. 


a) ¿Cuáles son los valores posibles para X? 
b) Determine P(X = 3). 


c) Al evento de que falle el primer componente y que los 
próximos dos pasen con éxito la prueba se denota por 
FSS. Determine P(ESS). 


d) Determine P(SES) y P(SSP). 


e) Use los resultados de los incisos c) y d) para encontrar 
P(X =2). 


f) Determine P(X = 1). 
£g) Determine P(X = 0). 
h) Determine uy. 
¡) Determine 0%. 


J) Sea Y el número de éxitos si se seleccionan cuatro com- 
ponentes. Determine P(Y = 3). 


La hidrogenación del benceno para el ciclohexano es pro- 
movida con un catalizador de níquel dividido en poros fi- 
nos. El catalizador de partículas se puede considerar como 
esferas de diferentes tamaños. Todas las partículas tienen 
masas entre 10 y 70 ug. Sea X la masa de una partícula ele- 
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gida aleatoriamente. La función de densidad de probabili- 
dad de X está dada por 


10<x<70 
de otro modo 


x—10 
10=| 1 800 
0 


a) ¿Cuál es la proporción de partículas que tiene una masa 
menor a 50 ug? 


b) Determine la media de las masas de las partículas. 


c) Determine la desviación estándar de las masas de las 
partículas. 


d) Determine la función de distribución acumulativa de las 
masas de las partículas. 


e) Determine la mediana de las masas de las partículas. 


Las especificaciones piden que el espesor de las hojas de alu- 
minio para hacer latas estén entre 8 y 11 milésimos de pul- 
gada. Sea X el espesor de una hoja de aluminio. Suponga 
que la función de densidad de probabilidad de X está dada 


por 
Xx 
fa) = 54 


0 de otro modo 


6<x<1l2 


a) ¿Qué proporción de hojas cubrirán con la especifica- 
ción? 

b) Determine la media del espesor de una hoja. 

c) Determine la varianza del espesor de una hoja. 

d) Determine la desviación estándar del espesor de una 
hoja. 

e) Determine la función de distribución acumulativa del 
espesor. 

f) Determine la mediana el espesor. 

£) Determine el décimo percentil del espesor. 


h) Una hoja especial tiene 10 milésimos de pulgada de es- 
pesor. ¿Qué proporción de hojas tiene más espesor? 


Una masa radiactiva emite partículas de tiempo periódica- 
mente. El tiempo entre dos emisiones es aleatorio. Sea T el 
tiempo en segundos entre dos emisiones. Suponga que la 
función de densidad de probabilidad de T es dada por 


0.2002 1t>0 
N= 
FO E pen 


a) Determine la media del tiempo entre emisiones. 


b) Determine la desviación estándar del tiempo entre emi- 
siones. 


14. 


15. 


16. 


c) Determine la función de distribución acumulativa del 
tiempo entre emisiones. 


d) Determine la probabilidad de que el tiempo entre emi- 
siones sea menor a diez segundos. 


e) Determine la mediana del tiempo entre emisiones. 


f) Determine el 90avo. percentil de los tiempos entre emi- 


siones. 


Un proceso que fabrica anillos de pistón produce anillos cu- 
yos diámetros (en centímetros) varían de acuerdo con la 
función de densidad de probabilidad 


3[1 — 16(x — 10y] 9.715<x<10.25 
fu= 
0 de otro modo 
a) Determine la media del diámetro de los anillos que se 
fabrican mediante este proceso. 


b) Determine la desviación estándar de los diámetros de 
anillos fabricados por este proceso. (Sugerencia: La 
ecuación 2.36 puede ser más fácil de usar que la ecua- 
ción 2.37.) 

c) Determine la función de distribución acumulativa de los 
diámetros de los anillos de pistón. 


d) ¿Qué proporción de anillos de pistón tiene diámetros 
menores a 9.75 centímetros? 


e) ¿Qué proporción de anillos de pistón tiene diámetros en- 
tre 9.75 y 10.25 centímetros? 


Con referencia al ejercicio 14, un proceso competidor pro- 
duce anillos cuyos diámetros (en centímetros) varían de 
acuerdo con la función de densidad de probabilidad 


15[1 — 25(x — 10.05)?]/4 
9.85 < x < 10.25 
0 de otro modo 


fa) = 


Las especificaciones pedidas para el diámetro son 10.0+0.1 
cm. ¿Qué proceso es mejor, éste o el del ejercicio 14? Ex- 
plique. 


Las partículas son un componente muy importante de la 
contaminación atmosférica en muchas áreas. Es interesante 
estudiar los tamaños de las partículas contaminantes. Sea X 
el diámetro, en micrómetros, de una partícula elegida alea- 
toriamente. Suponga que en cierta área, la función de den- 
sidad de probabilidad de X es inversamente proporcional al 
volumen de la partícula; es decir, suponga que 
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x3 


Cc 8) ¿Qué proporción de partículas PM, son PM, 5? 
Fx) = 
x<l 


17. Un científico ecologista está preocupado por la tasa a la que 
se absorbe cierta solución tóxica en la piel. Sea X el volu- 
men en microlitros de la solución absorbida por 1 pulg? de 
piel en 1 min. Suponga que la función de densidad de pro- 
babilidad de X se aproxima bien por la función f(x) = 
(21270) "e 010%R, definida de -oo <x< oo, 


donde c es una constante. 


a) Determine el valor de c para que f(x) sea una función de 
densidad de probabilidad. 
b) Determine la media del diámetro de la partícula. 


c) Determine la función de distribución acumulativa del a) Determine la media del volumen absorbido en 1 min. 


diámetro de la partícula, b) (Difícil.) Determine la desviación estándar del volumen 


d) Determine la mediana del diámetro de la partícula. absorbido en 1 min. 


e) El término PM; se refiere a partículas con diámetros 
menores o iguales a 10 um. ¿Qué proporción de partícu- 
las contaminantes son PMy? 


f) El término PM,” se refiere a partículas con diámetros 
menores o iguales a 2.5 um. ¿Qué proporción de partícu- 
las contaminantes son PM, 5? 


2.5 Funciones lineales de variables aleatorias 


En la práctica con frecuencia se construyen nuevas variables aleatorias realizando operacio- 
nes aritméticas con otras variables aleatorias. Por ejemplo, se podría sumar una constante a 
una variable aleatoria, multiplicar una variable aleatoria por una constante, o sumar dos o más 
variables aleatorias. En esta sección se describe cómo calcular medias y varianzas de varia- 
bles aleatorias construidas de esta manera y se presentan algunos ejemplos prácticos. La pre- 
sentación en esta sección es intuitiva. Una presentación más rigurosa se ofrece en la sección 
2.6. Quienes deseen este tipo de presentación pueden cubrir la sección 2.6 además de, o en 
lugar de, esta sección. 


Sumando una constante 


Cuando se suma una constante a una variable aleatoria, la media se aumenta por el valor de 
la constante, pero la varianza y la desviación estándar son iguales. Por ejemplo, suponga que 
las varillas de acero producidas por cierta máquina tienen una media de la longitud de 5.0 pul- 
gadas y una varianza (0? = 0.003 pulg”). Cada varilla se fija a una base que tiene exactamen- 
te 1.0 pulg de longitud. La media de la longitud del montaje será de 5.0 + 1.0 = 6.0 pulg. 
Debido a que cada longitud se ha aumentado en la misma cantidad, la dispersión en las lon- 
gitudes no cambia, por lo que la varianza es la misma. Para poner esto en términos estadísti- 
cos, sea X la longitud de una varilla elegida aleatoriamente y sea Y = X + 1 la longitud del 
montaje. Entonces uy = x+1 = mx + 1, y 0% = EN = 0%. En general, cuando se su- 
ma una constante a una variable aleatoria, la media se desplaza en esa constante y la varian- 
za no cambia. 
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Si X es una variable aleatoria y b es una constante, entonces 


Ux+b= Mx +b (2.39) 


di 0% (2.40) 


Multiplicando por una constante 


Con frecuencia se tiene que multiplicar una variable aleatoria por una constante. Esto último 
se podría hacer, por ejemplo, al convertir a un sistema más conveniente de unidades. Se con- 
tinúa con el ejemplo de la producción de varillas de acero para mostrar cómo se afecta la me- 
dia, la varianza y la desviación estándar de una variable aleatoria por la multiplicación de una 
constante. 

Si medimos las longitudes de las varillas descritas anteriormente en centímetros en vez 
de pulgadas, la media de longitud será (2.54 cm/pulgX(5.0 pulg) = 12.7 cm. En términos es- 
tadísticos, sea la variable aleatoria X la longitud en pulgadas de una varilla elegida aleatoria- 
mente y sea Y = 2.54X la longitud en centímetros. Entonces uy = 2.54 Ux. En general, cuando 
una variable aleatoria se multiplica por una constante, su media se multiplica por la misma 
constante. 


Si X es una variable aleatoria y a es una constante, entonces 


Max = aux (2.41) 


Cuando la longitud X de una varilla se mide en pulgadas, la varianza 0? debe tener uni- 
dades de pulg?. Si Y = 2.54X es la longitud en centímetros, entonces o? debe tener unidades 
de cm. Por tanto, se obtiene o; al multiplicar oz por 2.54”, que es el factor de conversión de 
pulg? a cm”. En general, cuando una variable aleatoria se multiplica por una constante, su va- 
rianza se multiplica por el cuadrado de la constante. 


Si X es una variable aleatoria y a es una constante, entonces 


0% =a0? (2.42) 


Oax = lajox (2.43) 


Si una variable aleatoria se multiplica por una constante y después se suma a otra cons- 
tante, el efecto sobre la media y la varianza se puede determinar al combinar las ecuaciones 
(2.39) y 2.41) y las ecuaciones (2.40) y (2.42). Los resultados se presentan en el resumen si- 
guiente. 
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Si X es una variable aleatoria y a y b son constantes, entonces 
Max+b = Aux +b (2.44) 
ii =0 0% (2.45) 
Oax+b = lalox (2.46) 


Observe que las ecuaciones (2.44) a (2.46) son similares a los resultados para la media y la 
desviación estándar de una muestra que se presentaron en la sección 1.2. 


La molaridad de un soluto en una solución se define como el número de moles de soluto por 
litro de solución (1 mol = 6.02 x 10% moléculas). Si la molaridad de una solución existente 
de ácido sulfúrico concentrado (H,SO4) es X y si una parte de la solución se mezcla con N 
partes de agua, la molaridad Y de la solución diluida está dada por Y = X/(N + 1). Suponga 
que la solución existente se fabricó con un proceso que produce una molaridad con una me- 
día de 18 y con una desviación estándar de 0.1. Si a 100 ml de la solución existente se le agre- 
gan 300 ml de agua, determine la media y la desviación estándar de la molaridad de la 
solución diluida. 


Solución 
La molaridad de la solución diluida es Y = 0.25X. La media y la desviación estándar de X son 
Lx = 18 y Ox = 0.1, respectivamente. Por tanto, 


My = M0.25X 
= 0.251 x (utilizando la ecuación 2.41) 
= 0.25(18.0) 
= 4,5 

También, 

Oy = 00.25X 
= 0.250x (utilizando la ecuación 2.43) 
= 0.25(0.1) 
= 0.025 


Medias de combinaciones lineales de variables aleatorias 


Considere el caso de sumar dos variables aleatorias. Por ejemplo, suponga que hay dos má- 
quinas que fabrican cierta pieza de metal. La media de la producción diaria de la máquina A 
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es de 100 piezas y la media de la producción diaria de la máquina B es de 150 piezas. Evi- 
dentemente la media de la producción diaria de las dos máquinas es de 250 piezas. Poniendo 
esto en notación matemática, sea X el número de piezas producidas en un día dado por la má- 
quina A y sea Y el número de piezas producidas en el mismo día por la máquina B. El núme- 
ro total de piezas es X + Y y se tiene que Uy , y = Ux + Uy. 

Esta idea se generaliza para cualquier número de variables aleatorias. 


Si X¡, X»,.. ., X, son variables aleatorias, entonces la media de la suma X, + X, +-++- 
+ X, está dada por 


o ES A (2.47) 
La suma X, + X, +... + X, es un caso especial de combinación lineal: 
S1X,,...,X, son variables aleatorias y C,,... , Cc, Son constantes, entonces la varia- 


ble aleatoria 
cx +: +cxX, 


” 


se denomina combinación lineal de X,,....,X,,. 


Para encontrar la media de una combinación lineal de variables aleatorias, se puede 
combinar las ecuaciones (2.41) y (2.47): 


Si X y Y son variables aleatorias y a y b son constantes, entonces 


HMaxX+bY = Max =p Mby = AUX + buy (2.48) 


De forma más general, si X,,X,, ..., X, son variables aleatorias y C,,C>,... . , C, SON 
constantes, entonces la media de la combinación lineal c,X, + c,X, + +++ +c, X, es- 
tá dada por 


Me Ec Xt Eca Xo = CUXx, TA Copxo de y 5d En Lx, (2.49) 


Variables aleatorias independientes 


El concepto de independencia para variables aleatorias es exactamente como el concepto de in- 
dependencia para eventos. Dos variables aleatorias son independientes si se sabe que una de 
ellas no afecta las probabilidades de los demás. Cuando dos eventos son independientes, la 
probabilidad de que ambos ocurran se encuentra multiplicando las probabilidades para cada 
evento (véanse las ecuaciones 2.19 y 2.20 de la sección 2.3). Hay fórmulas similares para va- 
riables aleatorias independientes. La notación para estas fórmulas es la siguiente. Sea X una 
variable aleatoria y sea S un conjunto de números. La notación “X € S” significa que el va- 
lor de la variable aleatoria X está en el conjunto S. 
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Definición 
Si X y Y son variables aleatorias independientes y S y T son conjuntos de números, 
entonces 


P(XeSyYeT)=P(XeS)P(Y ET) (2.50) 
De forma más general, si X,,X», ..., X, son variables aleatorias independientes y 
Si» - . - , S, Son conjuntos, entonces 


P(X1€S1 yX2€8 y: y X. € Sn) = 
P(X1 € SI)P(X) € S2)--* P(X, € Sn) (Q.51) 


Las bandejas de plástico rectangulares para un disco compacto (CD) tienen especificaciones 
de longitud y de ancho, sea X la longitud y Y el ancho, cada una se mide al milímetro más cer- 
cano, de una bandeja seleccionada aleatoriamente. La de masa de probabilidad de X está da- 
da por P(X = 129) = 0.2, P(X = 130) = 0.7 y P(X = 131) = 0.1. La de masa de probabilidad 
de Y está dada por P(Y = 15) = 0.6 y P(Y = 16) = 0.4. El área de una bandeja está dada por 
A = XY. Suponga que X y Y son independientes. Determine la probabilidad de que el área sea 
1935 mm”. 


Solución 
El área será igual a 1 935 si X = 129 y Y = 15. Por tanto, 


P(A= 1935) = P(X=129 y Y =15) 
= P(X = 129) P(Y = 15) ya que X y Y son independientes 
= (0.2)(0.6) 
= 0.12 


Las ecuaciones (2.50) y (2.51) indican cómo calcular probabilidades para variables aleatorias 
independientes, pero no son generalmente de mucha ayuda para determinar si las variables 
aleatorias son en realidad independientes. En general, la mejor manera de determinar si las 
variables aleatorias son independientes es entendiendo el proceso que las generó. 


Varianzas de combinaciones lineales de variables 
aleatorias independientes 


Se ha visto que la media de una suma de variables aleatorias es siempre igual a la suma de las 
medias (ecuación 2.47). En general, la fórmula para la varianza de una suma de variables alea- 
torias es un poco más complicada que esto último. Pero cuando las variables aleatorias son 
independientes, el resultado es simple: la varianza de la suma es la suma de las varianzas. 
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Si X¡,X>, .. ., X, son variables aleatorias independientes, entonces la varianza de la 
suma X, + X, + +++ + X, está dada por 


2 — Al 2 2 
O Exa = Ox; + Ox, + os ar Cx, (2.52) 


Para encontrar la varianza de una combinación lineal de variables aleatorias, se puede 
combinar las ecuaciones (2.52) y (2.42): 


SiX;¡, X>, ... , X, son variables aleatorias independientes y C;,C7, . . . , C, SON CONS- 
tantes, entonces la varianza de la combinación lineal c,X, + c,X, + -- + +.c,X, está 
dada por 
2 o 2 27 
oro = O, ar A ar 99 CO (2.53) 


Dos combinaciones lineales frecuentemente encontradas son la suma y la diferencia de 
dos variables aleatorias. Curiosamente, cuando las variables aleatorias son independientes, la 
varianza de la suma es igual a la varianza de la diferencia. 


. . . 5 9 . 2) 2) 
Si X y Y son variables aleatorias independientes con las varianzas oz y 0y, entonces 
la varianza de la suma X + Y es 


a = Oz + oz (2.54) 
La varianza de la diferencia X— Y es 


A O (2.55) 


El hecho de que la varianza de la diferencia es la suma de las varianzas podría parecer con- 
tradictorio. Sin embargo, se obtiene de la ecuación (2.53) al hacer c, =1 y c, = —1. 


Un pistón se coloca dentro de un cilindro. La holgura es la distancia entre el borde del pistón 
y la pared del cilindro y es igual a la mitad de la diferencia entre el diámetro del cilindro y el 
diámetro del pistón. Suponga que el diámetro del pistón tiene una media de 80.85 cm con una 
desviación estándar de 0.02 cm. Suponga que el diámetro del cilindro tiene una media de 
80.95 cm con una desviación estándar de 0.03 cm. Determine la media de la holgura. Supo- 
niendo que el pistón y el cilindro se eligen independientemente, determine la desviación es- 
tándar de la holgura. 


Solución 
Sea X; el diámetro del cilindro y sea X, el diámetro del pistón. La holgura está dada por C = 
0.5X, — 0.5X,. Usando la ecuación (2.49), la media del perímetro es 
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Mc = M0.5X¡-0.5X2 
=0.5ux, —0.5ux, 
= 0.5(80.95) — 0.5(80.85) 
= 0.050 


Puesto que X, y X, son independientes, se puede usar la ecuación (2.53) para encontrar la des- 


viación estándar Oc: 
Oc = 4/0? 
C 0.5X—0.5X> 


= (050%, + 0.507, 
= y0.25(0.02)? + 0.25(0.03)? 
= 0.018 


Independencia y muestras aleatorias simples 


Cuando se toma una muestra aleatoria simple de valores numéricos de una población, a cada 
elemento de la muestra se le puede pensar como una variable aleatoria. Los elementos en una 
muestra aleatoria simple se pueden tratar como independientes, excepto cuando la muestra es 
una proporción grande (mayor a 5%) de una población finita (véase el análisis de indepen- 
dencia en la sección 1.1). De ahora en adelante, a menos que se indique explícitamente lo con- 
trario, se supondrá que no ocurre esta excepción, por lo que los valores en una muestra 
aleatoria simple se pueden tratar como variables aleatorias independientes. 


SiX¡X,,..., X, es una muestra aleatoria simple, entonces X,,X,, ..., X, se puede 
tratar como variables aleatorias independientes, todas con la misma distribución. 


A veces cuando X,,..., X, son variables aleatorias independientes, todas con la misma dis- 
tribución, se dice que X;,..., X, son independientes e idénticamente distribuidas (i.i.d). 


Media y varianza de una media de la muestra 


La combinación lineal frecuentemente encontrada es la media de muestra. Específicamente, 
siX;,...,X, es una muestra aleatoria simple de una población con media U y varianza a, 
entonces la media muestral X es la combinación lineal 


= ll 1 
X= Mp, 
n n 
A partir de lo anterior se puede calcular la media y la varianza de X. 
MZ = Mix + Xp 


1 1 
= —Mx, +: +-4Mx, (usando la ecuación 2.49) 
n n 
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Il 
3| 
E 

+ 


Il 
==, 
ES 
Y 
AS 
3]|-»2 
UA 

E 


Como se analizó anteriormente, los elementos de una muestra aleatoria simple se pueden tra- 
tar como variables independientes aleatorias. Por tanto 


e A 
% ES OT x+-+1Xp 


1 1 
= SO, +. + 39%, (utilizando la ecuación 2.53) 


n2 2 
E, 3 
= pri +: + mo 
1 
2 
=(M|S)|o 
o (53) 
on 
SiX;,..., X, es una muestra aleatoria simple de una población con media u y va- 
rianza 0”, entonces la media muestral X es una variable aleatoria con 
HF =p (2.56) 
0l= E (2.57) 
xn " 
La desviación estándar de X es 
lo 


Un proceso que llena botellas de plástico con una bebida tiene una media de volumen de lle- 
nado de 2.013 L y una desviación estándar de 0.005 L. Una caja contiene 24 botellas. Supo- 
niendo que las botellas en una caja son una muestra aleatoria simple de botellas llenadas con 
este método, determine la media y la desviación estándar del volumen promedio por botella 
en una caja. 


Solución 
Sea que V,, ..., V,,¿ representen los volúmenes en las 24 botellas en una caja. Esta es una mues- 
tra aleatoria simple de una población con media u = 2.013 y desviación estándar o = 0.005. 


El volumen promedio es V = (V¡ + --- + V24)/24. Utilizando la ecuación (2.56), 
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py =p =2.013 


Usando la ecuación (2.58), 


Ejercicios para la sección 2.5 


1. 


Si X y Y son variables aleatorias independientes con medias 
Hx = 10.5 y uy = 5.7 y desviaciones estándares Ox = 0.5 y 
Oy = 0.3, determine las medias y las desviaciones estánda- 
res de las cantidades siguientes: 


a) 2X 
by X-Y 
Cc) 3X + 2Y 


Si un resistor con resistencia R ohms lleva una corriente de 
T amperes, la diferencia de potencial a través del resistor, en 
volts, está dada por V = [R. La resistencia de un resistor 
elegido aleatoriamente que está etiquetado con 100 (2 tiene 
una media de 100 Q y una desviación estándar de 10 (2. En 
un resistor seleccionado aleatoriamente se establece una co- 
rriente de 3 A. 


a) Determine ul. 


b) Determine O,. 


El tiempo de vida de cierto foco en una aplicación específi- 
ca tiene una media de 700 horas y una desviación estándar 
de 20 horas. Cuando se funde cada foco, se reemplaza con 
un foco nuevo. Determine la media y la desviación estándar 
del tiempo que durarán cinco focos. 


Dos resistores, con resistencias R;, y R,, se conectan en se- 
rie. La resistencia combinada R está dada por R = R, + Ro). 
Suponiendo que R, tiene una media de 50 Q y una desvia- 
ción estándar de 5 (2 y que R) tiene una media de 100 2 y 
una desviación estándar de 10 Q. 


a) Determine Ur. 


b) Suponiendo que R, y R) son independientes, determine 
Or» 


Una pieza de madera contrachapada está compuesta de cin- 
co capas. Las capas son una muestra aleatoria simple de una 
población cuyos espesores tienen una media de 0.125 pulg 
y una desviación estándar de 0.005 pulg. 


a) Determine la media del espesor de una pieza de madera 
contrachapada. 


Eb 
E 


= 0.001 


b) Determine la desviación estándar del espesor de una 
pieza de madera contrachapada. 


La fabricación de cierto artículo requiere que dos máquinas 
funcionen consecutivamente. El tiempo en la primera má- 
quina tiene una media de 10 min y desviación estándar de 2 
min. El tiempo en la segunda máquina tiene una media de 
15 min y una desviación estándar de 3 min. Suponga que 
los tiempos invertidos en las dos máquinas son indepen- 
dientes. 


a) Determine la media del tiempo total invertido en las dos 
máquinas. 


b) Determine la desviación estándar del tiempo total inver- 
tido en las dos máquinas. 


La molaridad de un soluto en una solución está definido co- 
mo el número de moles de soluto por litro de solución (1 
mol = 6.02 x 10% moléculas). Si X es la molaridad de una 
solución de cloruro de magnesio (MgCl,) y Y es la molari- 
dad de una solución de cloruro férrico (FeClz), la molaridad 
del ion de cloro (Cl ) en una solución hecha a partes igua- 
les de la solución, de MgCl, y FeCl; está dada por M = X 
+ 1.5Y. Suponga que X tiene una media de 0.125 y una des- 
viación estándar 0.05 y que Y tiene una media de 0.350 y 
una desviación estándar de 0.10. 


a) Determine Uy. 
b) Suponiendo que X y Y son independientes, determine 
On: 


Una máquina que llena cajas de cartón con cereal tiene un 
peso de llenado cuya media es 12.02 0z, con una desviación 
estándar de 0.03 oz. Una caja consta de 12 cajas selecciona- 
das aleatoriamente del producto de la máquina. 


a) 
b) 


Determine la media del peso total de cereal en la caja. 


Determine la desviación estándar del peso total del ce- 
real en la caja. 
c) Determine la media del peso promedio por caja del ce- 
real en la caja. 


Determine la desviación estándar del peso promedio por 
caja del cereal en la caja. 
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9. 


10. 


11. 


e) ¿Cuántas cajas se deben incluir en una caja para que la 
desviación estándar del peso promedio de la caja sea 
0.005 oz? 


Los cuatro lados de un marco de fotografía constan de dos 
piezas seleccionadas de una población cuya media de la 
longitud es de 30 cm con desviación estándar de 0.1 cm y 
dos piezas seleccionadas de una población cuya media de la 
longitud es de 45 cm con desviación estándar de 0.3 cm. 


a) Determine la media del perímetro. 


b) Suponga que las cuatro piezas se eligen independiente- 
mente. Determine la desviación estándar del perímetro. 


Una estación de gasolina percibe $1.60 en ingreso por cada 
galón de gasolina regular que vende, $1.75 para cada galón 
de gasolina de medio grado y $1.90 para cada galón de ga- 
solina súper. Sea que X,, X, y X3 indiquen los números de 
galones de gasolina regular, de medio grado y súper que se 
vendieron en un día. Suponga que X, X, y X; tienen medias 
1 = 1500, uu, = 500 y uz = 300 y desviaciones estánda- 
res 0, = 180, 0, = 90 y 03 = 40, respectivamente. 


a) Determine la media del ingreso diario. 


b) Suponiendo que X,, X, y Xz son independientes. Deter- 
mine la desviación estándar del ingreso diario. 


En el artículo “An Investigation of the Ca—CO¿—CaF,— 
K>SiO;—SiO0,—Fe Flux System Using the Submerged Are 
Welding Process on HSLA-100 and AISI-1018 Steels” (G. 
Fredrickson, tesis de maestría, Escuela de Minas, de Colo- 
rado, 1992), el carbono equivalente p de una soldadura de 
metal se definió como una combinación lineal de los por- 


centajes de los pesos de carbono (C), manganeso (Mn), co- 
bre (Cu), cromo (Cr), silicio (Si), níquel (Ni), molibdeno 
(Mo), vanadio (V) y boro (B). El carbono equivalente está 
dado por 

 _Mn+Cu+Cr Si Ni Mo V -SB 

20 "3060 1510" 


P=C 


Las medias y las desviaciones estándares de los porcentajes 
de los pesos de estos elementos químicos se calcularon de 
las mediciones en 45 soldaduras de metales producidas con 
el metal base de acero HSLA-100. Suponga que las medias 
y las desviaciones estándares (DE) son como se muestran 
en la tabla siguiente. 


Media DE 
G 0.0695 0.0018 
Mn 1.0477 0.0269 
Cu 0.8649 0.0225 
Cr 0.7356 0.0113 
Si 0.2171 0.0185 
Ni 2.8146 0.0284 
Mo 0.5913 0.0031 
V 0.0079 0.0006 
B 0.0006 0.0002 


a) Determine la media del equivalente de carbono de me- 
tales de soldadura fabricados con el metal base de acero 
HSLA-1000. 


b) Suponiendo que los porcentajes de los peso sean inde- 
pendientes, determine la desviación estándar del equiva- 
lente de carbono de metales de soldadura fabricados con 
el metal base de acero HSLA-1000. 


2.6 Variables aleatorias con distribución conjunta* 


En esta sección se presentan resultados de algunas variables aleatorias en un modo más rigu- 
roso que en la sección 2.5. Para las personas que deseen este tipo de presentación pueden cu- 
brir esta sección además, o en lugar, de la sección 2.5. 

Se ha dicho que observar un valor de una variable aleatoria es como seleccionar un va- 
lor de una población. En algunos casos, los elementos en la población podrían tener algunas 
variables aleatorias relacionadas con cada una de ellos. Por ejemplo, imagine elegir aleatoria- 
mente un estudiante de una lista de todos los estudiantes inscritos en una universidad y tomar 
datos de su estatura y peso. A cada persona de la población de estudiantes le corresponden 
dos variables aleatorias, la altura y el peso. Si también se determinara la edad del estudiante, 


* Esta sección es opcional. 
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a cada persona le corresponderían tres variables. En principio, cualquier número de variables 
aleatorias se puede relacionar con cada elemento en una población. 

Cuando dos o más variables aleatorias están relacionadas con cada elemento de una po- 
blación, se dice que aquéllas están con distribución conjunta. Si todas son discretas, se di- 
ce que son conjuntamente discretas. Si todas son continuas, entonces son conjuntamente 
continuas. Se estudiarán estos dos casos por separado. 


Variables aleatorias conjuntamente discretas 


En el ejemplo 2.46 (de la sección 2.5) se analizaron las longitudes y los anchos de la bande- 
ja de plástico rectangular para un CD que está instalada en una computadora personal. Las 
mediciones se redondearon al milímetro más cercano. Sean X la longitud medida y Y el an- 
cho medido. Los valores posibles de X son 129, 130 y 131 y los valores posibles para Y son 
15 y 16. Tanto X como Y son discretas, por lo que X y Y son conjuntamente discretas. Hay 
seis valores posibles para el par ordenado (X, Y): (129, 15), (129, 16), (130, 15), (130, 16), 
(131, 15) y (131, 16). Suponga que las probabilidades de cada uno de estos pares arreglados 
son como se muestra en la tabla siguiente. 


x y P(X =x y Y = y) 
129 15 0.12 
129 16 0.08 
130 15 0.42 
130 16 0.28 
131 15 0.06 
131 16 0.04 


La función de masa de probabilidad conjunta representa la función p(x, y) = P(X = x y Y 
= y). Por lo que, por ejemplo, se tiene p(129, 15) = 0.12 y p(130, 16) = 0.28. 

A veces se da una función de masa de probabilidad conjunta de dos variables aleatorias, 
pero se tiene interés en sólo una de ellas. Por ejemplo, se podría tener interés en la función de 
masa de probabilidad de X, la longitud de la bandeja del CD, pero no se tiene interés en el an- 
cho Y. Se puede obtener la función de masa de probabilidad de una de las variables X o Y por 
separado sumando los valores adecuados de la función de masa de probabilidad conjunta. Los 
ejemplos 2.49 y 2.50 ilustran el método. 


Determine la probabilidad de que la cubierta del CD tenga una longitud de 129 mm. 


Solución 
Está claro de la tabla anterior que 12% de las cubiertas del CD en la población tiene una lon- 
gitud de 129 y un ancho de 15 y que 8% tiene longitud de 129 y ancho de 16. 
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Por tanto, 20% de los elementos en la población tiene longitud de 129. La probabilidad de que 
una cubierta de CD tenga longitud de 129 mm es de 0.20. Simbólicamente, se tiene que 


P(X =129) = P(X =129 y Y =15)+ P(X =129 y Y =16) 
= 0.12 + 0.08 
= 0.20 


Determine la probabilidad de que una cubierta de CD tenga ancho de 16 mm. 


Solución 
Se necesita encontrar P(Y = 16). Se puede encontrar esta cantidad sumando las probabilida- 
des de todos los pares (x, y) para los cuales y = 16. Se obtiene que 


P(Y =16) = P(X = 129 y Y =16) + P(X =130 y Y =16) 
+ P(X =131 y Y =16) 
= 0.08 + 0.28 + 0.04 
= 0.40 


Los ejemplos 2.49 y 2.50 muestran que se puede encontrar la función de masa de pro- 
babilidad de X (o Y) sumando la función de masa de probabilidad conjunta sobre todos los va- 
lores de Y (o X). La tabla 2.3 presenta la función de masa de probabilidad conjunta de X y Y. 
La función de masa de probabilidad de X se presenta en la columna más a la derecha y se ob- 
tiene sumando a lo largo de los renglones. La función de masa de probabilidad de Y se pre- 
senta en el renglón inferior y se obtiene sumando abajo las columnas. Observe que las 
funciones de masa de probabilidad de X y de Y se muestran en los márgenes de la tabla. Por 
esta razón con frecuencia son llamadas funciones de masa de probabilidad marginal. 


TABLA 2.3 Funciones de masa de 

probabilidad conjunta y marginal 

para la longitud X y el ancho Y de 
una cubierta de CD 


y 

Xx 15 16 px) 
129 0.12 0.08 0.20 
130 0.42 0.28 0.70 
131 0.06 0.04 0.10 
pr(y) 0.60 0.40 


Por último, si se suman las funciones de densidad de probabilidad conjunta sobre todos 
valores posibles de x y y, se obtiene la probabilidad de que X y Y tomen valores en algún lu- 
gar dentro de sus rangos posibles y esta probabilidad es igual a 1. 


2.6 Variables aleatorias con distribución conjunta 123 


Si X y Y son variables aleatorias conjuntamente discretas: 
mM La función de masa de probabilidad conjunta de X y Y es la función 
py) = P(X =x y Y = y) 
mM Las funciones de masa de probabilidad marginal de X y Y se pueden obtener a 


partir de la función de masa de probabilidad conjunta como se muestra a 
continuación: 


px(x) =P(X=x)=d p(x,y) pr) =P(Y =y)=) > p(x,y) 


donde las sumatorias se toman sobre todos los valores posibles de Y y de X, 
respectivamente. 


m La función de masa de probabilidad conjunta tiene la propiedad de que 
22 GS 
x y 


donde la suma incluye a todos los valores posibles de X y Y. 


Variables aleatorias conjuntamente continuas 


Se ha visto que si X es una variable aleatoria continua, se pueden encontrar sus probabilida- 
des al integrar su función de densidad de probabilidad. Se dice que las variables aleatorias X 
y Y son conjuntamente continuas si se determinan sus probabilidades al integrar una fun- 
ción con dos variables, denominada función de densidad de probabilidad conjunta de X y 
Y. Para determinar la probabilidad de que X y Y tengan ciertos valores en una región, integra- 
mos la función de densidad de probabilidad conjunta en esa región tal y como lo muestra el 
ejemplo 2.51. 


Suponga que en cierto tipo de lavadora, tanto el espesor como el diámetro de la cavidad son 
diferentes en cada unidad. X representa el espesor en milímetros y Y denota el diámetro de la 
cavidad en milímetros, de una lavadora seleccionada aleatoriamente. Suponga que la función 
de densidad de la probabilidad conjunta de X y Y está dada por 


1 
¿(A+y) sil<sx<2y4<y<5 
fxay)=3 6 


0 de otro modo 


Determine la probabilidad de que una lavadora escogida aleatoriamente tenga un espesor en- 
tre 1.0 y 1.5 mm y una cavidad con un diámetro entre 4.5 y 5 mm. 


Solución 

Se necesita encontrar P(1 <X<1.5 y 4.5 < Y < 5). El rectángulo grande en la figura muestra 
la región en la cual la densidad conjunta es positiva. El rectángulo sombreado indica la región 
en la que l <x<1.5 y 4.5<yS5, en la cual se integrará a la densidad conjunta. 
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5.5 


y 45 


Se integra a la función de densidad de probabilidad conjunta en la región indicada: 


1.:5 5 1 
PASXS15y4s<Y<5)=/ / E O 
1 4.5 
15 219=5 
al qe aa dx 
1 6 12 
y=4.5 
1.5 X 19 
= —+>—)]dx 
0 (5 E 5) 


Observe que si se integrara una función de densidad de probabilidad conjunta en todo 
el plano, es decir, si los límites fueran de —=> a oo tanto para x como para y, se obtendría la 
probabilidad de que X y Y tuvieran valores entre —oo y co, lo que es igual a 1. 


Si X y Y son variables aleatorias conjuntamente continuas, con una función de densi- 
dad de probabilidad conjunta fx, y) y a< b, c< d, entonces 


b d 
Pla<X<b yesrsd= ff sanas 


La función de densidad de probabilidad conjunta tiene la propiedad de que 


/ 0 bé! 
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Se ha visto que si X y Y son variables conjuntamente discretas, la función de masa de 
probabilidad de cualquier variable se puede encontrar al sumar la función de masa de proba- 
bilidad conjunta en todos los valores de la otra variable. Cuando se calcula de esta forma, a 
la función de masa de probabilidad se le llama función de masa de probabilidad marginal. Por 
analogía, si X y Y son variables conjuntamente continuas, la función de densidad de probabi- 
lidad de cualquier variable se puede determinar al integrar la función de densidad de proba- 
bilidad conjunta con respecto a la otra variable. Cuando se calcula de esta manera, a la 
función de densidad de probabilidad se le denomina función de densidad de probabilidad 
marginal. El ejemplo 2.52 ilustra esta idea. 


Con referencia al ejemplo 2.51, encuentre la función de densidad de probabilidad marginal 
del espesor X de una lavadora. Determine la función de densidad de probabilidad marginal del 
diámetro de la cavidad Y de una lavadora. 


Solución 
Denote a la función de densidad de probabilidad marginal de X por medio de fy(x) y a la fun- 
ción de densidad de probabilidad marginal de Y por f(y). Entonces 


feo) =/ Pd 


51 
E] ME LÓ 
4 


== l + 1 < < ) 
= Xx para Xx 
a 2 = = 


fr) Sl FG, dx 


00 


2 
=/ ETA 


1 3 


=5(9+3) parad4d<y<5 


Si X y Y son variables conjuntamente continuas con una función de densidad de pro- 
babilidad conjunta f(x, y), entonces las funciones de densidad de probabilidad margi- 
nal de X y Y están dadas, respectivamente, por 


muo=] F(x,y) dy mo=f Fx, y) dx 
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El artículo “Performance Comparison of Two Location Based Routing Protocols for ad Hoc 
Networks” (T. Camp, J. Boleng y colaboradores, en Proceedings of the Twenty-first annual 
Joint Conference of IEEE Computer and Communications Societies, 2002:1678-1687) descri- 
be un modelo del movimiento de una computadora móvil. Suponga que ésta se mueve dentro 
de la región A delimitada por el eje x, la recta x = 1 y la recta y = x de tal forma que si (X,Y) 
representa la posición de la computadora en determinado momento, la función de densidad 
conjunta de X y Y está dada por 


8xy (x,y) € A 
for =(; (03) 2 A 


Encuentre a P(X > 0.5 y Y < 0.5). 


Solución 

La región A es el triángulo que se muestra en la figura 2.13, donde la región X> 0.5 y Y<0.5 
aparece sombreada. Para determinar a P(X > 0.5 y Y < 0.5), se integra a la densidad conjunta 
en la región sombreada. 


Lo fO5S 
P(X>0.5 y Y < 0.5) = se ' 8xy dy dx 
0.5 Jo 


1 y=0.5 
= se 4xy? dx 
0.5 Da 


y=x 


y 
0.5 


0 0.5 1 
an 


FIGURA 2.13 El triángulo representa la región en la cual la densidad conjunta de X y Y 
es positiva. Al integrar la densidad conjunta en el cuadrado sombreado, se encuentra la 
probabilidad de que el punto (X, Y) se encuentre en el cuadrado sombreado. 
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Con referencia al ejemplo 2.53, encuentre las densidades marginales de X y de Y. 


Solución 

Para calcular a fy(x), la densidad marginal de X, se mantiene constante a x y se integra a la 
densidad conjunta a lo largo de la recta vertical que pasa por x, como se muestra en la figura 
2.14. La integración se realiza con respecto a y, y los límites de integración son y =0a y = x. 


OS / Bxy dy 
) 


= 4xy? 


y=0 


= 4x1? paral<x<l 


y 


x 


FIGURA 2.14 La densidad marginal f(x) se calcula al integrar la densidad conjunta 
a lo largo de la recta vertical que pasa x. 


Para calcular f,(y), la densidad marginal de Y se mantiene constante a y y se integra la densi- 
dad conjunta a lo largo de la recta horizontal que pasa por y, como se muestra la figura 2.15. 
La integración es con respecto a x y los límites de integración van dex =yax= l. 


para0d<y<l 
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Re 
Il 
= 


Xx 


FIGURA 2.15 La densidad marginal f(y) se calcula al integrar la densidad conjunta 
a lo largo de la recta horizontal que pasa por y. 


Más de dos variables aleatorias 


Los conceptos de funciones de masa de probabilidad conjunta y funciones de densidad de 
probabilidad conjunta se amplían fácilmente a más de dos variables aleatorias. Aquí se pre- 
sentan las definiciones. 


Definición 


mM Si las variables aleatorias X, ..., X, son conjuntamente discretas, la función de 
masa de probabilidad es 
Pisa) P(X] = MX, -.., X» = Xn) 
mM Si las variables aleatorias X;, ..., X, son conjuntamente continuas, tienen una 
función de densidad de probabilidad conjunta Áx;, ... ., x,), donde 
Da bi 
P(a¡ <X¡<b,, ma] e (Xt, -.., Xp) dx >> - dx, 
Un aj 
para cualesquiera constantes a¡< b,,...,a,<Db,,. 


Medias de funciones de variables aleatorias 


Algunas veces se da una variable aleatoria X y se necesita trabajar con una función de X. Si 
X es una variable aleatoria y A(X) es una función de X, entonces h(X) es también una variable 
aleatoria. Si se desea calcular la media de A(X), se puede hacer utilizando la función de masa 
de probabilidad o la función de densidad de probabilidad de X. No es necesario conocer la 
función de masa de probabilidad o la función de densidad de probabilidad de »(X). 


2.6 Variables aleatorias con distribución conjunta 129 


Sea X una variable aleatoria y sea h(X) una función de X, entonces 


MH SiXes discreta con una unción de masa de probabilidad p(x), la media de »(X) 
está dada por 


ac = Y hp) (2.59) 


donde la suma incluye a todos los valores posibles de X. 


MH  SiXes continua con una función de densidad de probabilidad f(x), la media de 
h(X) está dada por 


Un) = / h(x) f(x) dx (2.60) 


Observe que si se sustituye h(X) = (X— uy ya sea en la ecuación (2.59) o en la (2.60), 
la parte derecha de la ecuación se convierte en una expresión de la varianza de X. Por lo que 
us Mix—ux)- Se puede obtener otra expresión de la varianza de X al sustituir 1(X) = e y 


., o) 
restar un en ambos lados de la ecuación. Se concluye que 0% = px» — M%. 


Un motor de combustión interna contiene varios cilindros calibrados en el bloque del motor. 
X representa el diámetro del calibre de un cilindro, en milímetros. Suponga que la función de 
densidad de probabilidad de X es 


10 80.5 <x < 80.6 
FG) = 
0 de otro modo 


A= DÉ representa el área del calibre. Encuentre la media de A. 


Solución 


La media del área es de 5 096 mm?. 


Si HX) = aX + b es una función lineal de X, entonces la media UL,x + , y la varianza 
Dn +p Se pueden expresar en términos de Uy y o5.. Estos resultados se presentaron en la sec- 
ción 2.5 de la ecuación (2.44) a la (2.46); aquí se repiten nuevamente. 
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Si X es una variable aleatoria, y a y b son constantes, entonces 
Meza = Ol (a (Q.61) 
E = ao. (2.62) 
Dax+p = lao x (2.63) 


Las demostraciones de estos resultados se encuentran al final de esta sección. 

Si X y Y son variables aleatorias con distribución conjunta y h(X,Y) es una función de 
X y Y, entonces se puede calcular la media de x(X, Y) a partir de la función de masa de proba- 
bilidad conjunta o la función de densidad de probabilidad conjunta de X y Y. 


Si X y Y son variables aleatorias con distribución conjunta y h(X, Y) es una función de 
X y Y, entonces 


Mm Si X y Y son conjuntamente discretas con una función de masa de probabilidad 
conjunta p(x,y) 


tac) = Y Y hy) p (xy) (2.64) 
2% y 
donde la sumatoria se realiza sobre todos los valores posibles de X y Y. 


mM  SiX y Y son conjuntamente continuas con una función de densidad de probabi- 
lidad conjunta f(x, y) 


Unxy) =/ / h(x, y) f(x, y) dx dy (Q.65) 


El desplazamiento de un pistón en un motor de combustión interna se define como el volu- 
men que la parte superior del pistón mueve desde la parte superior hasta el fondo de su gol- 
pe. X representa el diámetro del calibre del cilindro y Y representa la longitud del golpe del 
pistón en milímetros. El desplazamiento está dado por D = 1X”Y/4. Suponga que X y Y se 
distribuyen conjuntamente con una función de masa de probabilidad conjunta 


100 80.5<x <80.6 y 65.1 < y < 65.2 
Fx, y) = 
0 de otro modo 


Determine la media de D. 


Solución 


00 00 ax?y 
no= | | FP ranas 
O 
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652 1806 y y2y, 
= / (100) dx dy 
6s1 Jos 4 


= 331 998 


La media del desplazamiento es de 331 998 mn, o = 332 mL. 


Distribuciones condicionales 


Si X y Y son variables aleatorias con distribución conjunta, entonces conocer el valor de X 
puede cambiar las probabilidades de la variable aleatoria Y. Por ejemplo, X representa la al- 
tura en pulgadas y Y representa el peso en libras de un estudiante elegido aleatoriamente. Se 
tiene interés en la probabilidad P(Y > 200). Si se conoce la densidad conjunta de X y Y, se 
puede determinar esta probabilidad al calcular la densidad marginal de Y. Ahora se ha apren- 
dido que la estatura del estudiante es X = 78. Evidentemente, saber lo anterior cambia la pro- 
babilidad de que Y > 200. Para calcular esta nueva probabilidad, se necesita el concepto de 
distribución condicional. 

Primero, se analiza el caso en el que X y Y son variables conjuntamente discretas. Sea 
x cualquier valor para el cual P(X = x) > 0. Entonces, la probabilidad condicional de que Y 
= y dado X = xes P(Y = y|X = x). Se expresa esta probabilidad condicional en términos de 
las funciones de masa de probabilidad conjunta y marginal. Si p(x,y) representa la función de ma- 
sa de probabilidad conjunta de X y Y, y px(x) denota la función de masa de probabilidad mar- 
ginal de X, entonces la probabilidad condicional 


PY = e _ p(x,y) 
TALLE PASO) 7 px) 


La función de masa de probabilidad condicional de Y dado X = x es la probabilidad con- 
dicional P(Y = y|X = x), considerada como una función de y y x. 


Definición 
Sean X y Y variables aleatorias conjuntamente discretas, con una función de masa de 
probabilidad conjunta p(x,y). Sea px(x) la de masa de probabilidad marginal de X y sea 


x cualquier número para el cual px(x) > 0. 
La función de masa de probabilidad condicional de Y dado X = x es 


p(x,y) (2.66) 


prix |x)= pxG0) 


Observe que para cualesquiera valores particulares de x y y, el valor de pyy(Qy|x) es, de 
hecho, la probabilidad condicional P(Y = y|X = x). 
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La tabla 2.3 presenta la función de masa de probabilidad conjunta de la longitud X y ancho Y 
de una cubierta de CD. Calcule la función de masa de probabilidad condicional pyx(y | 130). 


Solución 
Los posibles valores de Y son y = 15 y y = 16. De la tabla 2.3, P(Y = 15 y X = 130) = 0.42, 
y P(X = 130) = 0.70. Por tanto, 


prix(15|130) = P(Y =15| X = 130) 
_P(F=15 y X=130) 

E P(X = 130) 

0.42 

0.70 

= 0.60 


El valor de pyx(16 | 130) se puede calcular con un cálculo similar. Alternativamente observe 
que pyx(16 | 130) = 1-pyx(15 | 130), puesto que y = 15 y y = 16 son los dos únicos valores 
posibles de Y. Por tanto, pyx(16 | 130) = 0.4. La función de masa de probabilidad condicio- 
nal de Y dado X = 130 es, por consiguiente, pyx(15 | 130) = 0.60, pyx(16 | 130) = 0.40, y 
PyxO | 130) = 0 para cualquier valor de y diferente a 15 o 16. 


La analogía de la función de masa de probabilidad condicional para variables aleatorias 
conjuntamente continuas es la función de densidad de probabilidad condicional. La defi- 
nición de la función de densidad de probabilidad condicional es igual a la de la función de 
masa de probabilidad condicional, sólo que las funciones de masa se reemplazan por funcio- 
nes de densidad. 


Definición 
Sean X y Y variables aleatorias conjuntamente continuas, con una función de densidad 
de probabilidad conjunta f(x,y). Sea fy(x) la función de densidad de probabilidad mar- 


ginal de X y x cualquier número para el que f(x) > 0. 
La función de densidad de probabilidad condicional de Y dado X = x es 


f(x, y) 
Fx(x) 


fix lx) = (2.67) 


(Continuación del ejemplo 2.51.) La función de densidad de probabilidad conjunta del espe- 
sor X y del diámetro de la cavidad Y (ambos en milímetros) de una lavadora elegida aleato- 
riamente es f(x,y) = (1/6N(x + y) para 1<x<2 y 4< y < 5. Encuentre la función de densidad 
de probabilidad condicional de Y dado que X = 1.2. Determine la probabilidad de que el diá- 
metro de la cavidad sea menor o igual a 4.8 mm dado que el espesor mida 1.2 mm. 


Solución 
En el ejemplo 2.52 se calculan las funciones de densidad de probabilidad marginal 
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a para l<x<2 OI ¿Uria para 4<y<5 


La función de densidad de probabilidad condicional de Y dado que X = 1.2 es 


FA.2, y) 
1.2) = == 
frixG 11.2) Fx(12) 
1/601.2 
(1/60(0.2 + y) tes 
=¿ (1/60(1.2+4.5) 
0 de otro modo 
1.2 
a si4d<y<5 
= 5.7 
0 de otro modo 


La probabilidad de que el diámetro de la cavidad sea menor o igual a 4.8 mm dado que el es- 
pesor mide 1.2 mm es P(Y< 4.8 | X = 1.2). Esto se determina al integrar fyx(y | 1.2) en la re- 
gión y < 4,8: 


4.8 


P(Y <48|X=1.2) = fux(y 11.2) dy 


—00 


4.8 12 
y 57 


= 0.786 


Esperanza condicional 


La esperanza es otro término para la media. Una esperanza condicional es una esperanza, O 
media, que se calcula utilizando una función de masa de probabilidad condicional o función 
de densidad de probabilidad condicional. La esperanza condicional de Y dado X = x se repre- 
senta por E(Y | X = x) O yy. Lo anterior se ilustra en los ejemplos 2.59 a 2.61. 


La tabla 2.3 presenta la función de masa de probabilidad conjunta de la longitud X y ancho Y 
de una cubierta de CD. Calcule la esperanza condicional E(Y | X = 130). 


Solución 

En el ejemplo 2.57 se calculó la función de masa de probabilidad condicional pyx(y | 130). La 
esperanza condicional E(Y | X = 130) se calcula utilizando la definición de la media de una 
variable aleatoria discreta y la función de masa de probabilidad condicional. Específicamente, 
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E(Y | X =130) =)) _ y pyix(y 1130) 


= 15 py¡x(15|130) + 16 pyix(16| 130) 
15(0.60) + 16(0.40) 
= 15.4 


Con referencia al ejemplo 2.58, determine la esperanza condicional de Y dado que X = 1.2. 


Solución 
Ya que X y Y son conjuntamente continuas, utilizamos la definición de la media de una varia- 
ble aleatoria continua para calcular la esperanza condicional. 


o) 


E(Y|X =1.2) = p Yfrix Cy 11.2) dy 


—00 


> IB 
= d 
Po a 


= 4.5146 


Con referencia al ejemplo 2.58, determine el valor de uy (a la que se puede nombrar como 
media incondicional de Y). ¿Difiere ésta de E(Y | X = 1.2)? 


Solución 
El valor de Uy se calcula por medio de la función de masa de probabilidad marginal de Y. Por 
tanto, 


My el YE (y) dy 


[e,2) 
a: 

= y ¿0 +15) dy 
4 


= 4.5139 


En este caso, la esperanza condicional difiere ligeramente de la esperanza incondicional. 


Variables aleatorias independientes 


El concepto de independencia de variables aleatorias es muy parecido al de independencia de 
eventos. Dos variables aleatorias son independientes si el conocimiento de una de ellas no 
afecta las probabilidades de la otra. Aquí se presenta un concepto de independencia de varia- 
bles aleatorias en términos de su función de masa de probabilidad conjunta o de su función 
de densidad de probabilidad conjunta. Una definición diferente, pero lógicamente equivalen- 
te, se presentó en la sección 2.5. 
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Definición 


Dos variables aleatorias X y Y son independientes, si se satisface que 
Mm Si X y Y son conjuntamente discretas, la función de masa de probabilidad conjun- 
ta es igual al producto de las probabilidades marginales: 
p(x,y) = px(x)pr(y) 


Mm Si X y Y son conjuntamente continuas, la función de densidad de probabilidad 
conjunta es igual al producto de las probabilidades marginales: 


FOy)= fx00) fr O) 


Las variables aleatorias X;, ... , X, son independientes, si se satisface que 
mM SiX;,,...,X, son conjuntamente discretas, la función de masa de probabilidad 
conjunta es igual al producto de las probabilidades marginales: 
p(x1, ...> Xn) = PX; (x1) AAA Px, (Xp) 


mM SiX;,,...,X, son conjuntamente continuas, la función de densidad de probabili- 
dad conjunta es igual al producto de las probabilidades marginales: 


FL)... An) = fx, (x1) -** fx, (un) 


Intuitivamente, cuando dos variables aleatorias son independientes, el conocer el valor 
de una de ellas no afecta a la distribución de probabilidad de la otra. En otras palabras, la dis- 
tribución condicional de Y dado X es la misma que la distribución marginal de Y. 


Si X y Y son variables aleatorias independientes, entonces 
E Si X y Y son conjuntamente discretas y x es un valor para el cual px(x) > 0, entonces 


prixQ|x)= pr(y) 


MH Si X y Y son conjuntamente continuas y x es un valor para el cual £¿(x) > 0, entonces 


fixOlx) = fr0) 


La función de masa de probabilidad conjunta de la longitud X y el ancho Y de una bandeja de 
CD se encuentran en la tabla 2.3. ¿X y Y son independientes? 


Solución 
Se debe comprobar si P(X = x y Y = y) = P(X = x)P(Y = y) en cada valor de x y y. Se em- 
pieza por verificar si x = 129, y y = 15: 


P(X =129 y Y =15) =0.12 = (0.201(0.60) = P(X = 129) P(Y = 15) 
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Si se continúa de esta forma, se puede comprobar que P(X = x y Y = y) = P(X = x)P(Y 
y) para cada valor de x y y. Por consecuencia, X y Y son independientes. 


(Continuación del ejemplo 2.51.) La función de densidad de probabilidad conjunta del espe- 
sor X y del diámetro de la cavidad Y de una lavadora elegida aleatoriamente es f(x,y) = (1/6)(x 
+ y) paral<x<2y4<y8S5. ¿X y Y son independientes? 


Solución 
En el ejemplo 2.52, se calculan las funciones de masa de probabilidad marginal 


1/9 1/3 
fx) = 6 (+3) FO) = Pa (++3) 


Evidentemente flxx,y) + fxb0fy0y). Por tanto, X y Y no son independientes. 


Covarianza 


Cuando dos variables aleatorias no son independientes, es útil tener una medida de la inten- 
sidad de la relación entre ellas. La covarianza poblacional representa una medida de un cierto 
tipo de relación conocida como relación lineal. Usualmente se quita el término “poblacional” 
y se le llama simplemente covarianza. 


Definición 
Sean X y Y variables aleatorias con medias Uy y Uy. La covarianza de X y Y es 
Cov(X, Y) = H(X—ux) Y —uy) (2.68) 
Una fórmula alternativa es 


Cov(X,Y) = Lxy — Mx My (2.69) 


La demostración de la equivalencia de estas dos fórmulas se encuentra al final de la sección. 
Es importante observar que las unidades de Cov(X, Y) son las unidades de X multiplicadas por 
las unidades de Y. 

¿Cómo mide la covarianza la intensidad de la relación lineal entre X y Y? La covarian- 
za es la media del producto de las desviaciones (X — UMY — Uy). Si se construyera un siste- 
ma cartesiano con el origen en (Ux, My), este producto sería positivo en el primero y tercer 
cuadrantes y negativo en el segundo y cuarto cuadrantes (véase la figura 2.16). De ahí que si 
Cov(X, Y) es positiva, entonces los valores de (X,Y) en el primero y tercer cuadrantes serán 
más frecuentes que los valores en el segundo y cuarto cuadrantes. Por consiguiente, en una 
muestra aleatoria de puntos, los grandes valores de X tienden a hacer pareja con valores gran- 
des de Y, mientras que los valores pequeños de X se equiparan con valores pequeños de Y 
(véase la figura 2.16a). De forma similar, si Cov(X,Y) es negativa, es más probable que los 
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puntos en una muestra aleatoria se encuentren en el segundo y cuarto cuadrantes, de tal for- 
ma que los valores grandes de X tenderán a hacer pareja con los valores pequeños de Y (véa- 
se la figura 2.16b). Por último, si Cov(X, Y) se aproxima a 0, hay poca tendencia a que valores 
grandes de X se equiparen con valores pequeños o grandes de Y (véase la figura 2.16c). 


x= dO0-y<0 A= IO py>0 E= Í0> y)<0 == Íd0> yp)>0 


«x= dO0= p>0 x= DIO p)<0 A= DO p>0 X= DO p<O 
X X 
a) b) 


(6) 


FIGURA 2.16 a) Muestra aleatoria de puntos de una población con covarianza positiva. b) Muestra aleatoria de puntos de 
una población con covarianza negativa. c) Muestra aleatoria de puntos de una población con covarianza cercana a 0. 


Ejemplo 


Continuando con el ejemplo 2.53, una computadora móvil se mueve en la región A delimita- 
da por el eje x, la recta x = 1 y la recta y = x (véase la figura 2.13). Si (X,Y) denota la posi- 
ción de la computadora en cierto momento, la densidad conjunta de X y Y está dada por 


_ JJ 8xy (x,y) € A 
Fx, y) = ls CONEA 


138 


CAPÍTULO 2 Probabilidad 


Determine a Cov(X, Y). 


Solución 
Se utilizará la fórmula Cov(X,Y) = Uxy-— Hxlly (ecuación 2.69). Primero se calcula uyy: 


00 [0,0] 
E ] / aa 
=o —o 


Ahora la densidad conjunta es positiva en el triángulo que se muestra 


Xx 


Para calcular la integral en esta región, se fija un valor de x, como se muestra a continuación. 
Se calcula la integral interior integrando con respecto a y a lo largo de la recta vertical que pa- 
sa por x. Los límites de integración a lo largo de esta recta son de y = O a y = x. Posterior- 
mente se calcula la integral exterior integrando con respecto a x todos los valores posibles de 
x, de manera que los límites de integración en la integral exterior son dex =0ax= l. 


Por tanto, 
1 Xx 
par = | / xy(8xy) dy dx 
o Jo 
1 


=/ (/ $e)? dy) dx 
0 0 

18 5 
Sl E de 

o 3 


Para encontrar a uz y Uy se utilizan las densidades marginales calculadas en el ejemplo 2.54. 
Éstas son 


0 de otro modo 


4y — 4y? O<y<l 
FN= 0 de otro modo 


3 
ro = ($ O<x<l 
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Ahora se calculará a Uy y Uy: 


n=] fr O) dy 


1 
/ (4y? —4y%) dy 


Mu imei % 001778 
ov(X,Y) = = =0. ] 
Adiós 9 15) 225 


Las inspecciones de control de calidad de entrepaños de madera consisten en contar el núme- 
ro de imperfecciones en la superficie de cada entrepaño. En uno de éstos, de 2 x 8 pies, X es 
el número de imperfecciones en la superficie provocadas por una aplicación desigual de la úl- 
tima capa del material de acabado y Y representa el número de imperfecciones en la superficie 
debidas a la inclusión de partículas externas en el acabado. La función de masa de probabilidad 
conjunta p(x,y) de X y Y se presenta en la siguiente tabla. Las funciones de masa de probabili- 
dad marginal están también en los márgenes de la tabla. Determine la covarianza de X y Y. 


y 
x 0 1 2 px(x) 
0.05 0.10 0.20 0.35 
1 0.05 0.15 0.05 0.25 
0.25 0.10 0.05 0.40 
pr(y) 0.35 0.35 0.30 


Solución 
Se utilizará la fórmula Cov(X,Y) = Uxy— Uxtly (ecuación 2.69). Primero se calculará uyy. 


2 2 
xy = Y xy p(x,y) 


x=0 y=0 
= (0010.15 + 0040.05 + 40)(0.10) + 2)4)(0.05) 


= 0.65 (eliminando los términos igual a 0) 
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Se utilizan las marginales para calcular Uy y Uy: 
1mx = (0)(0.35) + (1)(0.25) + (2)(0.40) = 1.05 


my = (0)(0.35) + (1)(0.35) + (2)(0.30) = 0.95 


Por lo que Cov(X,Y) = 0.65 — (1.091(0.95) = -0.3473. 


Correlación 


Si X y Y son variables aleatorias conjuntamente distribuidas, la Cov(X,Y) mide la intensidad 
de la relación lineal entre ellas. Como se mencionó anteriormente, la covarianza tiene unida- 
des, que son las unidades del producto de las unidades de X por las unidades de Y. Esto es una 
seria desventaja en la práctica, ya que no se puede utilizar la covarianza para determinar cuál 
de los dos pares de variables aleatorias está más relacionado, dado que las dos covarianzas 
tienen diferentes unidades. Lo que se necesita es una medida de la intensidad de una relación 
lineal que sea sólo un número. La correlación poblacional representa dicha medida. Usual- 
mente no se emplea el término “poblacional” y se llama simplemente correlación. Represen- 
taremos la correlación entre las variables X y Y mediante px y. 

La correlación es una versión ajustada de la covarianza. Específicamente, para calcular 
la correlación entre X y Y, primero se debe calcular la covarianza para después deshacerse de 
las unidades al dividir entre el producto de la desviación estándar de X y Y. Se puede compro- 
bar mediante métodos avanzados que la correlación se encuentra siempre entre —1 y 1. 


Sean X y Y variables aleatorias conjuntamente distribuidas con desviaciones estándar 
Ox Y Oy. La correlación entre X y Y se denota como px y y está dada por 


_ Cov(X,Y) 


OxoYy 


PX,Y (Q.70) 


Para cualesquiera dos variables aleatorias X y Y: 


=1< Pxr<sl 


Con referencia al ejemplo 2.64, encuentre Py y. 


Solución 

En el ejemplo 2.64 se calcula que Cov(X,Y) = 0.01778, Uy = 4/5 y Uy = 8/15. Ahora se de- 
be calcular a Oz y Oy. Con este propósito se utilizan las densidades marginales de X y Y, que 
se determinaron en el ejemplo 2.54. Éstas son: f dx) = 4 para0<x<l y 0) = 4y-4y pa- 
ra O< y< 1. Se obtiene 
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00 
Pe = / 1? fx(x) dx — ji 


00 


= [15d a : 
= a 3 


= 0.02667 


4) eo 0) 
Oy =/ Y fr 0) dy — 5 


[e,2) 
: 3 5 8 y 
= 4y?—4 dy=l=— 
0 (4y? — 4y*) dy (55) 
= 0.04889 
Por lo que px y = ATA = 0.492. 
v(0.02667)(0.04889) 


Con referencia al ejemplo 2.65, determine py y. 


Solución 

En el ejemplo 2.65 se calcula que Cov(X,Y) = -0.3475, Uz = 1.05 y Uy = 0.95. Ahora se de- 
be calcular 0, y 0. Con ese fin se utilizan las densidades marginales de X y Y, que se encuen- 
tran en la tabla del ejemplo 2.65. Se obtiene 


2 
0% => x*px(x)— y 
x=0 
= (020.35) + (1270.25) + (22)(0.40) — 1.05? 
= 0.7475 


= (020.35) + (12)(0.35) + (22)(0.30) — 0.95? 
= 0.6475 
Por lo que 
0.3475 
PE OTATSNOGAT5) 


0.499 


Covarianza, correlación e independencia 


Cuando Cov(X,Y) = Pxy = O no hay una relación lineal entre X y Y. En este caso se dice que 
X y Y no están correlacionadas. Advierta que si Cov(X,Y) = 0, entonces éste siempre será 
el caso cuando Px, y = O y viceversa. Si X y Y son variables aleatorias independientes, enton- 
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ces X y Y nunca estarán correlacionadas, ya que no existe ninguna relación lineal o de otro ti- 
po entre ellos. Matemáticamente es posible construir variables aleatorias que no estén corre- 
lacionadas ni sean independientes. Sin embargo, este fenómeno se ve pocas veces en la 
práctica. 


mM Si Cov(X,Y) = Px y = 0, entonces se dice que X y Y no están correlacionadas. 
E Si X y Y son independientes, entonces X y Y no están correlacionadas. 


Mm Matemáticamente es posible que X y Y no estén correlacionadas ni sean indepen- 
dientes. Esto es poco común en la práctica. 


Al final de esta sección se encuentra una demostración del hecho de que las variables 
aleatorias independientes nunca están correlacionadas. El ejercicio 26 muestra un ejemplo de 
variables aleatorias no correlacionadas ni independientes. 


Combinaciones lineales de variables aleatorias 


En la sección 2.5 se analizó las combinaciones lineales de variables aleatorias. Aquí vemos 
de nuevo los resultados e incluimos resultados adicionales de la varianza de una combinación 
lineal de variables aleatorias dependientes. 


SiX;,...,X, son variables aleatorias y c;, .. ., c, son constantes, entonces a la va- 
riable aleatoria 


COX +:::+cC,X, 


se le denomina combinación lineal de X,,...,X,. 
S1X¡,...,X, son variables aleatorias y C;, ...., C, SOn constantes, entonces 
Me X i++ +cp Xp = C1M xy 7 0: Cafx, (Q.71) 


n-1 n 


oxieotak, = 010%, Eo e c50%, +2), ), cie; Cov(Xi, Xj) (2.72) 
dal j=l 


Al final de esta sección se encuentran las demostraciones de estos resultados para el caso de 
n = 2. La ecuación (2.72) es el resultado más general referente a la varianza de una combi- 
nación lineal de variables aleatorias. Como un caso especial, observe que si X,,... , X, son 
independientes, entonces todas las covarianzas son iguales a O, por lo que el resultado se sim- 
plifica en: 
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SiX;,...,X, son variables aleatorias independientes y C;,..., C, son constantes, en- 
tonces 
2 IE 22 
taa, — MO, ao Cn x, (2.73) 


En particular, 


4H, == %, a Ox, (2.74) 


Finalmente, se presentan algunos casos especiales de las ecuaciones (2.72) y (2.74) en las 
cuales sólo hay dos variables aleatorias: 


Si X y Y son variables aleatorias, entonces 
Oxyy =0% +07 +2 Cov(X, Y) (275) 
0% y =0% +07 — 2 Cov(X, Y) (2.76) 
Si X y Y son variables aleatorias independientes, entonces 
A O (2.77) 


ol y =0 +0? (2.78) 


Observe que la varianza de la diferencia X — Y de dos variables aleatorias independientes es 
la suma de las varianzas. 


(Continuación del ejemplo 2.53.) Suponga que la computadora móvil se mueve verticalmen- 
te desde una posición aleatoria (X,Y) al punto (X,0) y posteriormente a lo largo del eje x ha- 
cia el origen. Encuentre la media y la varianza de la distancia recorrida. 


Solución 
La distancia recorrida es la suma X + Y. Las medias de X y Y se calcularon en el ejemplo 
2.64. Estas son Uy = 4/5 = 0.800 y uy = 8/15 = 0.533. Se calcula 


Mx4+Y =Hx + My 
= 0.800 + 0.533 
= 1.333 


Para calcular 0% + y se emplea la ecuación (2.75). En el ejemplo 2.64 se calculó que la 
Cov(X,Y) = 0.01778. En el ejemplo 2.66 se calculó o; = 0.02667 y o; = 0.04889. Por con- 
secuencia, 
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Ox+y =0% +07 +2 Cov(X, Y) 
= 0.02667 + 0.04889 + 2(0.01778) 
=0.1111 


Media y varianza de una media muestral 


Se repasarán los procedimientos para calcular la media y la varianza de una media muestral 
que se presentaron en la sección 2.5. Cuando de una población se extrae una muestra aleato- 
ria simple de valores numéricos, se puede considerar que cada unidad en la muestra constitu- 
ye una variable aleatoria. A menos que la muestra represente una proporción grande (mayor 
que 5%) de la población, se puede tratar a las unidades en la muestra como independientes 
(véase en la sección 1.1 el análisis acerca de independencia). A partir de ahora, a menos que 
se indique lo contrario, se supondrá que los valores de una muestra aleatoria simple son va- 
riables aleatorias independientes 


S1X,,..., X, es una muestra aleatoria simple, entonces se puede considerar que 


X1, .. ., X, son variables aleatorias independientes, todas con la misma distribución. 


La combinación lineal más frecuente es la media muestral. Específicamente, si X,,....,X,, 
es una muestra aleatoria simple, entonces X, ... , X, son independientes y la media muestral X es 
la combinación lineal 


Por tanto, las fórmulas de la media y varianza de X se deducen de las ecuaciones (2.71) y 


(2.73), respectivamente, al establecer que c, =c,=...=<C, = l/n. 
S1X¡,...,X, es una muestra aleatoria simple de una población con media U y 
varianza 0”, entonces la media muestral X es una variable aleatoria con 
Le =u (2.79) 
A 
ii (2.80) 


La desviación estándar de X es 


(2.81) 


El artículo “Water Price Influence on Apartment Complex Water Use” (D. Aghte y R. Bi- 
llings, en Journal of Water Resources Planning and Management, 2002:366-369) analiza el 
volumen de agua consumido por los departamentos de 308 complejos habitacionales en Tue- 
son, Arizona. 
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El volumen gastado por departamento durante el verano tuvo una media de 20.4 m y una des- 
viación estándar de 11.1 m'. Encuentre la media y la desviación estándar de la media mues- 
tral del uso de agua en una muestra de 100 departamentos. ¿Cuántos de éstos se deben incluir 
en la HOSSta para que la media muestral del uso de agua tenga una desviación estándar igual 
a 0.5 m”? 


Solución 
Sean X;,..., X¡pp las cantidades de agua utilizadas en una muestra de 100 departamentos. Por 
tanto, X,, ... , X¡py provienen de una población con una media u = 20.4 y una desviación es- 


tándar O = 11.1. Se concluye que la media muestral X tiene una media Uy = U = 20.4 y una 
desviación estándar oz = 0/V 100 = 1.11. Sea n el tamaño de la muestra requerido para que 
Oz = 0.5. Entonces 0/./n =11.1/,/n = 0.5. Al despejar n, se obtiene que n = 493. 


Aplicación al manejo de carteras de inversiones 


La ecuación (2.72) y sus variantes son determinantes en las finanzas. Suponga que una per- 
sona tiene un número fijo de dólares para invertir. Ella puede elegir entre una variedad de in- 
versiones, por ejemplo, acciones, bonos y bienes raíces. Después de un año ella venderá su 
inversión; X representa su ganancia (o pérdida). Como no se puede predecir con certeza el va- 
lor de X, los economistas lo tratan como una variable aleatoria. La media Uy indica la canti- 
dad que se espera que la inversión genere en promedio. La desviación estándar Ox refleja la 
volatilidad, o riesgo, de la inversión. Si Oy es muy pequeña, entonces es casi seguro que la in- 
versión generará una cantidad cercana a la ganancia promedio Uy, por lo que el riesgo es ba- 
jo. Si Oy es grande, la ganancia puede variar ampliamente, por lo que el riesgo es alto. En 
general, si dos inversiones tienen la misma ganancia promedio, se prefiere a la que tenga la 
menor desviación estándar, puesto que en promedio genera la misma ganancia con un riesgo 
menor. 


Un individuo tiene $200 para invertir. Él invertirá $100 en cada una de dos inversiones. X y Y 
denotan las ganancias de las dos inversiones. Suponga que Hz = Uy = $5, Ox = Oy = $2, y 
Pxy = 0.5. Encuentre la media y la desviación estándar de la ganancia total de las dos inver- 
siones. 


Solución 
La ganancia total es X + Y. La media es 
Ux4y = Hx + My 
= $5 + $5 
= $10 


Utilizando la ecuación (2.75), la desviación estándar es oxyy = y dz + oe + 2 Cov(X, Y). 
Ahora la Cov(X,Y) = px y0x0y = (0.5)10)Q) = 2. Por consiguiente, 


ox, y = V2+2+2() 


= $3.46 
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Es prudente comparar el resultado del ejemplo 2.70 con el resultado que se obtendría si 
los $200 se hubieran aplicado en una sola inversión. El ejemplo 2.71 analiza esta posibilidad. 


Si el individuo del ejemplo 2.70 invirtió los $200 en una de las dos inversiones, encuentre la 
media y la desviación estándar de las ganancias. 


Solución 

Suponga que ese tipo elige un plan de inversión, cuya ganancia de $100 es X (el resultado se- 
ría el mismo si se eligiera Y). Como consecuencia de que se invierten $200, en vez de $100, 
la ganancia será 2X. La media de la ganancia es 


Mx =2p4x =2(5) = $10 


La desviación estándar es 


O09x = 20x = 202) = $4 


Al comparar los resultados de los ejemplos 2.70 y 2.71 se demuestra que las medias de las 
ganancias de las dos estrategias de inversión son iguales, pero la desviación estándar (es de- 
cir, el riesgo) es menor cuando el capital se divide entre dos inversiones. Éste es el principio 
de diversificación. Cuando están disponibles dos inversiones, cuyas ganancias tienen la mis- 
ma media y el mismo riesgo, siempre es ventajoso dividir el capital entre ambas, en vez de 
invertirlo en sólo una de ellas. 


Demostración de que ax. ¿p = aux + b 


Se supone que X es una variable aleatoria continua con función de densidad f(x). Entonces 


[o,9) 
Mr = 0 (ax + b)f(x) dx (ecuación 2.60) 
009! 


= axfooa+ [oras 


(0,0) —00 


=a fasioan+o f FG) dx 


00 = 


aux +b(1) 
=aux +b 


La demostración en el caso que X sea una variable aleatoria discreta es similar, sólo que 
las integrales son sustituidas por sumatorias. 


Demostración de que ax. py = aux + Duy 


Sean X y Y variables conjuntamente continuas con una densidad conjunta f(x,y) y densida- 
des marginales f(x) y fy(y). Sean a y b constantes, entonces 
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[oe] [oe] 
Aa ' / a 
=00 00 


=/ / af ady+ | al Ea 
a] ó xp dao | / na 


aa rana aro y [ramas o 


= xfxc0 de+b | y fr (y) dy 


00 = 


= aux + buy 
La demostración en el caso de que X y Y sean variables conjuntamente discretas es 
similar, sólo que las integrales son sustituidas por sumatorias. 


.z 2 Pa 
Demostración de que Dax+b > ar Ox 


Se utiliza la notación £(X) alternativamente con uz, E(Y) alternativamente con uy y así 
sucesivamente. Sea Y = aX + b, entonces 
Dax+b 5 oy 
= EY) — pu 
= El(aX +b)]-— Méx y, 
= Ela XD Eb (amb) 
= E(a*X”) + EQabX) + E(b”) — (aux + bY 
a EAS) DA LEO Eb a == Daba = be 
= a [E(X”) — pz] 
= alo? 
Demostración de que oy =a220% +b20% +2ab Cov(X,Y) 


Se utiliza la notación E(X) intercambiable con uy, E(Y) intercambiable con Uy y así suce- 
sivamente. 


Oaxroy = EllaX + bY)]— Max+oy 
= E(2xX? + 20bXY + bY2) — M2 y spy 
= E(a*X?) + E(LabXY) + E(b*Y?) — (aux + buyY 
= a E(X?) + 2abE(XY) + b2E(Y?) — a?u2 — 2abuxuy — b?u? 
= LE) — uz] +b*1E(Y?) — 7] + 2ab[E(XY) — uxuy] 
= alo? + b20? + 2ab Cov(X, Y) 


Demostración de la equivalencia de las ecuaciones (2.68) y (2.69) 


Se utiliza la notación £(X) alternativamente con Ux, E(Y) alternativamente con uy y así 
sucesivamente. Se debe demostrar que 


E[((X — uxV(Y — Uy)l = Uxy — Mx My 
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Ahora 


El(X — UxMY — uy)] = E(XY — Xpy — Y ux + uxur) 
= E(XY) — E(Xuy) — E(Yux) + E(uxur) 
= E(XY) — UyE(X) — px E(Y) + Hx Uy 
= Mxy —= MyMx — MxMy + xy 
= HxY — MxHMyY 
Demostración de que si X y Y son independientes entonces X y Y no están 
correlacionadas 


Sean X y Y variables aleatorias independientes. Se demostrará que Uxy = Uxlly, por lo 
que Cov(X,Y) = Px y = 0. Se supondrá que X y Y son variables conjuntamente continuas 
con una densidad conjunta f(x,y) y densidades marginales f(x) y fy(y). La clave de esta 
demostración es el hecho de que dado que X y Y son independientes, fíx,y) = fxC0f,0)). 


00 00 
Aa 0 / o) ed 
=00 Y —o0 


Pf orornas 


=/ x feto ds | a 
=> xy de 


La demostración en el caso de que X y Y sean variables conjuntamente discretas es 
similar, sólo que las integrales son sustituidas por sumatorias. 


Ejercicios para la sección 2.6 


1. En una muestra de mil pernos seleccionada aleatoriamente, e) Determine la probabilidad de que todos los pernos de la 
X es el número de pernos que no tienen la longitud especí- muestra satisfagan la especificación de la longitud. 
fica y Y el número de pernos que no tienen el diámetro es- f) Determine la probabilidad de que todos los pernos de la 


pecífico. Suponga que la función de masa de probabilidad 


muestra satisfagan la especificación del diámetro. 
conjunta de X y Y está dada por la siguiente tabla. 


g8) Determine la probabilidad de que todos los pernos de la 
muestra cumplan con ambas especificaciones. 


y 
x 0 1 2 2. Con referencia al ejercicio 1. 
0 0.40 0.12 0.08 a) Determine la función de masa de probabilidad marginal 
1 0.15 0.08 0.03 px(x). 
2 0.10 0.03 0.01 b) Determine la función de masa de probabilidad marginal 
pro). 
a) Determine P(X = 0 y Y = 2). c) Determine Ux. 
b) Determine P(X > 0 y Y < 1). d) Determine uy. 
c) Determine P(X < 1). e) Determine Ox. 


d) Determine P(Y > 0). f) Determine Oy. 


£) Determine Cov(X, Y). 
h) Determine py y- 


i) ¿X y Y son independientes? Explique. 


. Con referencia al ejercicio 1. 


a) Determine la función de masa de probabilidad condicio- 
nal PyxO | 1). 
Determine la función de masa de probabilidad condicio- 


nal Px(x] 1). 


Determine la esperanza condicional E(Y|X = 1). 


b) 


c) 


d) Determine la esperanza condicional E(X| Y = 1). 

. Un software puede hacer llamadas a dos subrutinas, A y B. 
En una ejecución elegida aleatoriamente, X es el número de 
llamadas hechas a la subrutina A y Y representa las llama- 
das a la subrutina B. La función de masa de probabilidad 
conjunta de X y Y está dada por la siguiente tabla. 


y 
x 1 2 3 
1 0.15 0.10 0.10 
0.10 0.20 0.15 
3 0.05 0.05 0.10 


a) Determine la función de masa de probabilidad marginal 


de X. 


Determine la función de masa de probabilidad marginal 
de Y. 


¿X y Y son independientes? Explique. 


b) 


c) 
d) 
e) 
P 
8) 


Determine Ux y Uy. 
Determine Ox y Oy. 
Determine Cov(X, Y). 
Encuentre p(X, Y). 


. Con referencia al ejercicio 4, el número total de llamadas 
hechas a las dos subrutinas es X + Y. 


a) Determine Ux + y. 
b) Determine Ox y y. 


c) Determine P(X + Y = 4). 


. Con referencia al ejercicio 4. 


a) Determine la función de masa de probabilidad condicio- 
nal PyxG 12). 
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8. 
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b) Determine la función de masa de probabilidad condicio- 
nal Pyy(x 13). 
c) Determine la esperanza condicional E(Y | X = 2). 


d) Determine la esperanza condicional E(X | Y = 3). 


. Con referencia al ejercicio 4, suponga que cada ejecución 


de la subrutina A tarda 100 ms y que cada ejecución de la 
subrutina B tarda 200 ms. 
a) Exprese el número de milisegundos de todas las llama- 


das hechas a las dos subrutinas en términos de X y Y. 
b) Determine el número promedio de milisegundos de to- 


das las llamadas realizadas a las dos subrutinas. 


Encuentre la desviación estándar del número de milise- 
gundos de todas las llamadas hechas a las dos subrutinas. 


c) 


El número de clientes formados en una caja de supermerca- 
do es una variable aleatoria cuya función de masa de proba- 
bilidad está dada por la siguiente tabla. 


x | 0 1 2 3 4 5 
p(x) | 0.10 0.25 0.30 0.20 0.10 0.05 


Para cada cliente, el número de productos que compra cons- 
tituye una variable aleatoria con una función de masa de 
probabilidad 


y o|1 2 3 4 5 56 
p(y) [| 0.05 0.15 0.25 0.30 0.15 0.10 


Sea X el número de clientes formados y Y denota el núme- 
ro total de productos que compran todos los clientes forma- 
dos. Suponga que el número de productos comprados por 
un cliente es independiente del número de productos com- 
prados por cualquier otro cliente. 


a) Determine P(X = 2 y Y = 2). 
b) Determine P(X = 2 y Y = 6). 
c) Determine P(Y = 2). 


. En cierta intersección de una carretera de cuatro carriles, 


sólo hay dos para dar vuelta a la izquierda. El A está en el 
extremo izquierdo y el B está al lado de él. X representa el 
número de vehículos en el carril A, Y representa el número 
de vehículos en el carril B, cuando la señal cambia a verde. 
Suponga que X y Y tienen una función de masa de probabi- 
lidad conjunta p(x, y) dada por la siguiente tabla. 
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10. 


11. 


12. 
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y 
x 0 1 2 3 4 
0 0.05 0.04 0.01 0.00 0.00 
1 0.05 0.10 0.03 0.02 0.00 
2 0.03 0.05 0.15 0.05 0.02 
3 0.00 0.02 0.08 0.10 0.05 
4 0.00 0.00 0.02 0.05 0.08 


a) Determine la función de masa de probabilidad marginal 
de X. 


b) Determine la función de masa de probabilidad marginal 
de Y. 


c) ¿X y Y son independientes? Explique. 
d) Determine Uy y Uy. 

e) Determine Ox y Oy. 

f) Determine Cov(X, Y). 

8) Determine p(X,Y). 


Con referencia al ejercicio 9. 


a) Determine la media del número total de vehículos en los 
dos carriles. 


b) Determine la varianza del número total de vehículos en 
los dos carriles. 


c) Determine la probabilidad de que el número total de ve- 
hículos en los dos carriles sea exactamente igual a 6. 


Con referencia al ejercicio 9. 


a) Determine la función de masa de probabilidad condicio- 
nal PyxO 13). 

b) Determine la función de masa de probabilidad condicio- 
nal Pxy(x]4). 

c) Determine la esperanza condicional E(Y | X = 3). 


d) Determine la esperanza condicional E(X| Y = 4). 


X representa el número de automóviles y Y el de camiones 
que pasan por cierta caseta de cobro en un minuto. La fun- 
ción de masa de probabilidad conjunta de X y Y está dada 
en la siguiente tabla: 


y 
x 0 1 2 
0 0.10 0.05 0.05 
1 0.10 0.10 0.05 
2 0.05 0.20 0.10 
3 0.05 0.05 0.10 


13. 


14. 


15. 


16. 


a) Determine la función de masa de probabilidad marginal 
Pxix). 

b) Determine la función de masa de probabilidad marginal 
pro). 

c) Determine x. 

d) Determine ly. 

e) Determine Ox. 

f) Determine Oy. 

£) Determine Cov(X, Y). 


h) Determine px y- 


Con referencia al ejercicio 12, Z representa el número total 
de vehículos que pasa por la caseta de cobro en un minuto. 


a) Determine uz. 
b) Determine Oz. 


Cc) Determine P(Z = 2). 


Con referencia al ejercicio 12, suponga que la tarifa para 
autos es de $2 y la de camiones es de $5. T representa la 
cantidad total de las tarifas pagadas por los vehículos que 
pasan por la caseta de cobro en un minuto. 


a) Determine ur. 
b) Determine O. 


c) Determine P(T = 2). 


Con referencia al ejercicio 12. 


a) Determine la función de masa de probabilidad condicio- 
nal PyxG 13). 

b) Determine la función de masa de probabilidad condicio- 
nal Pyy(x| 1). 

c) Determine la esperanza condicional £(Y | X = 3). 


d) Determine la esperanza condicional E(X| Y = 1). 


Para variables aleatorias continuas X y Y con una función de 
densidad de probabilidad conjunta 


4xy O<x<ly0<y<l 


| 


0 de otro modo 


a) Determine P(X < 0.5 y Y > 0.75). 


b) Determine las funciones de densidad de probabilidad 
marginal fx) y 40). 
c) ¿X y Y son independientes? Explique. 


17. 


18. 


19. 


20. 


21. 


Con referencia al ejemplo 2.51 (p. 123). 


a) Determine Cov(X, Y). 


b) Determine px y- 


Para variables aleatorias continuas X y Y con una función de 
densidad de probabilidad conjunta 


x+y O<x<ly0<y<l 


FO, y) = (o 


de otro modo 
a) Determine P(X < 0.25 y Y < 0.85). 
b) Determine Cov(X, Y). 

c) Determine px y. 


d) ¿X y Y son independientes? Explique. 


Con referencia al ejercicio 18. 


a) Determine las funciones de densidad de probabilidad 
marginal fx) y fy0)- 

b) Determine la función de densidad de probabilidad con- 
dicional fyx(y | 0.75). 


c) Determine la esperanza condicional E(Y | X = 0.75). 


Sea X la cantidad de encogimiento (en %) que experimenta 
una fibra de cierto tipo elegida aleatoriamente cuando se ca- 
lienta a una temperatura de 120*C. Y representa el encogi- 
miento adicional (en %) cuando la fibra se calienta a 140*C. 
Suponga que la función de densidad de probabilidad con- 
junta de X y Y está dada por 


FO,y)= 


a) Determine P(X < 3.25 y Y > 0.8). 


b) Determine las funciones de densidad de probabilidad 
marginal £00) y f/0). 
c) ¿X y Y son independientes? Explique. 


48xy? 
49 
0 


3<x<4y05<y<l 


de otro modo 


Se mide (en cm) la longitud y ancho de un componente rec- 
tangular. Debido a errores en la medición, las medidas son 
variables aleatorias. X denota la medida de la longitud y Y 
representa la medida del ancho. Suponga que la función de 
densidad de probabilidad de X es 


19=4 


y que la función de densidad de probabilidad de Y es 


10 
0 


9.95 < x < 10.05 


de otro modo 
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22. 


23. 
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4.9 < y < 5.1 


de otro modo 


3 
cor =(; 


Suponga que las medidas de X y Y son independientes. 


a 
b 


c) 


= 


Determine P(X < 9.98). 
Determine P(Y > 5.01). 
Determine P(X < 9.98 y Y > 5.01). 


Determine Uy. 


= 


e) 
Y) 


Determine uy. 


Sea A = XY el área calculada a partir de las mediciones 
X y Y. Determine Hz. 


El espesor X de una cuña de madera (en milímetros) tiene 
una función de densidad de probabilidad 


10=| 


Determine Uy. 


3 3M-5P 
4 4 
0 


4<x<6 


de otro modo 


Determine 0. 


Y denota el espesor de una cuña en pulgadas (1 mm = 
0.0394 pulgadas). Determine ly y a?. 


Si se seleccionan tres cuñas de manera independiente y 
las apilamos una encima de la otra, encuentre la media 
y la varianza del espesor total. 


El tiempo de vida de cierto componente, en años, tiene una 
función de densidad de probabilidad 


Están disponibles dos de dichos componentes, cuyos tiem- 
pos de vida son independientes. Tan pronto como falle el 
primer componente, éste se reemplaza por el segundo. X re- 
presenta el tiempo de vida del primer componente y Y de- 
nota el del segundo componente. 


x>0 


x<0 


a) Determine la función de densidad de probabilidad con- 
junta de X y Y. 


b) Determine P(X< 1 y Y > 1). 

c) Determine uy. 

d) Determine Ux + y. 

e) Determine P(X + Y < 2). (Sugerencia: Grafique la re- 


gión del plano en la que x + y < 2 y después integre la 
función de densidad de probabilidad conjunta en toda 
esa región.) 
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24. 


25. 


26. 
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El número de bytes descargados por segundo en un canal de 
información tiene una media de 10* y desviación estándar 
de 10*. Entre los factores que influyen la razón está la con- 
gestión, la cual produce la alternación de periodos de trans- 
misión más rápida o más lenta. X representa el número de 
bytes descargados durante un periodo elegido aleatoriamen- 
te de cinco segundos. 


a) ¿Es razonable suponer que lx = 5 x 10% Explique. 


b) ¿Es razonable suponer que 0x = V3 x 10% Explique. 


El artículo “Abyssal Periodities > 3 800 Ma from Southern 
West Greenland: Field Relationships, Petrography, Geoch- 
ronology, Whole-Rock and Mineral Chemistry of Dunite 
and Harzburgite Inclusions in the Itsaq Gneiss Complex” 
(C. Friend, V. Bennett y A. Nutman, en Contributions to Mi- 
neralogy and Petrology, 2002:71-92) describe las composi- 
ciones químicas de ciertos minerales en el anterior manto 
arqueano. Para cierto tipo de ensamble olivino, el dióxido 
de silicio (SiO,) contenido (en peso %) en una roca elegida de 
forma aleatoria tiene una media de 40.25 y desviación es- 
tándar de 0.36. 


a) Encuentre la media y la desviación estándar de la media 
de la muestra del SiO, contenido en una muestra aleato- 
ria de diez rocas. 


b) ¿Cuántas rocas debe incluir la muestra para que la des- 
viación estándar de la media de la muestra del SiO, con- 
tenido sea de 0.05? 


Aquí hay dos variables aleatorias que no están correlaciona- 
das ni son independientes. X y Y tienen la siguiente función 
de masa de probabilidad conjunta: 


x y px, y) 
21 1 1/3 

0 0 1/3 

1 1 1/3 


27. 


28. 


29. 


a) Use la definición de independencia en la página 135 pa- 
ra demostrar que X y Y no son independientes (de hecho, 
Y = |X], por lo que Y es realmente una función de X). 


b) Demuestre que X y Y no están correlacionadas. 


Una persona tiene $100 para invertir y dos opciones en las 
cuales dividirlos. Si ella aplica toda la cantidad en la prime- 
ra inversión, su ganancia será X, mientras que si ella invier- 
te la cantidad total en la segunda opción, su ganancia será 
Y. Tanto X como Y tienen una media de $6 y desviación es- 
tándar (riesgo) de $3. La correlación entre X y Y es 0.3. 


a) Exprese la cantidad en términos de X y Y si ella invierte 
$30 en la primera inversión y $70 en la segunda. 

b) Encuentre la ganancia promedio y el riesgo si invierte 
$30 en la primera inversión y $70 en la segunda. 

c) Encuentre la ganancia promedio y el riesgo, en términos 
de K, si ella invierte $K en la primera inversión y $(100 
— K) en la segunda. 

d) Determine el valor de K que minimice el riesgo en la 
parte c). 

e) Demuestre que el valor de K que minimiza el riesgo en 
el inciso c) es el mismo para cualquier correlación 
Pxyél. 


Si X es una variable aleatoria, demuestre que Cov(X, X) = 
O%. 
X y Y son variables aleatorias y a y b son constantes. 


a) Demuestre que Cov(aX,bY) = ab Cov(X, Y). 


b) Demuestre que si a > 0 y b> 0, entonces P.x»y = Pxy- 
Concluya que el coeficiente de correlación no se ve 
afectado por el cambio en las unidades. 


Ejercicios adicionales para el capítulo 2 


1. Un sistema consta de cuatro componentes conectados, tal 


como se muestra. 


D 


Suponga que A, B, C y D funcionan independientemente. Si 
las probabilidades de que A, B, C y D fallen son 0.1, 0.2, 
0.05 y 0.3, respectivamente, ¿cuál es la probabilidad de que 
el sistema funcione? 


. Se lanza un dado hasta que aparece el número 6. ¿Cuál es la 
probabilidad que se necesiten más de cinco lanzamientos? 


. Las placas de silicón se utilizan en la producción de circui- 
tos integrados. De las placas producidas por determinado 
proceso, 10% tiene resistencias menores a la especificación 
y 5% tiene resistencias superiores a la especificación. 


a) ¿Cuál es la probabilidad de que la resistencia de una pla- 
ca elegida de forma aleatoria no satisfaga la especifica- 
ción? 

b) Si una placa escogida aleatoriamente tiene una resisten- 
cia que no cumple con la especificación, ¿cuál es la pro- 
babilidad de que tenga una resistencia demasiado baja? 


. Se utilizan dos líneas de producción para empaquetar azú- 
car en bolsas de 5 kg. La línea 1 produce el doble de bolsas 
que la línea 2. Uno por ciento de las bolsas de la línea 1 es- 
tán defectuosas ya que no cumplen con una especificación 
de calidad, mientras que 3% de las bolsas de la línea 2 es- 
tán defectuosas. Se elige aleatoriamente una bolsa para ins- 
peccionarla. 


a) ¿Cuál es la probabilidad de que provenga de la línea 1? 
b) ¿Cuál es la probabilidad de que esté defectuosa? 


c) Si la bolsa está defectuosa, ¿cuál es la probabilidad de 
que venga de la línea 1? 

d) Si la bolsa no está defectuosa, ¿cuál es la probabilidad 
de que venga de la línea 1? 


5. 


7. 
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Una cliente recibe un cargamento de diez mil fusibles. Ella 
extrae de forma aleatoria tres y los prueba. Si alguno está de- 
fectuoso, regresará el cargamento. Si, de hecho, mil están 
defectuosos, ¿cuál es la probabilidad de que regrese el car- 
gamento? 


. En cierto tipo de motor de automóvil, la cabeza del cilindro 


está sujeta al bloque mediante diez pernos, cada uno debe 
experimentar un par de torsión de 60 N - m. Suponga que los 
pares de torsión de los pernos son independientes. 


a) Se tiene una probabilidad de 0.99 si cada perno experi- 
menta un par de torsión adecuado, ¿cuál es la probabili- 
dad de que todos los pernos de la cabeza de un cilindro 
experimenten pares de torsión adecuados? 


b) El objetivo es que en 95% de los motores todos sus per- 
nos experimenten pares de torsión adecuados. ¿Cuál debe 
ser la probabilidad de que un perno experimente un par de 
torsión adecuado para que se alcance este objetivo? 


Un mensaje electrónico consiste en una cadena de bits (Os y 
1s). El mensaje debe pasar por dos relevadores antes de que 
sean recibidos. En cada relevador la probabilidad es de 0.1 
de que el bit se regrese antes de que sea relevado (es decir, 
que un 1 cambie a 0, o un O a 1). Encuentre la probabilidad 
de que el valor de un bit recibido en el destino final es igual 
al valor del que fue enviado. 


. La lectura de un termómetro calibrado en agua helada (tem- 


peratura real de 0*C) representa una variable aleatoria con 
función de densidad de probabilidad. 


k(1 — x?2 
194 id 


0 de otro modo 


=l<x=<l 


donde k es una constante. 


a) Determine el valor de k. 


b) ¿Cuál es la probabilidad de que el termómetro indique 
una temperatura mayor a 0%C? 


c) ¿Cuál es la probabilidad de que la lectura esté dentro los 
0.25*C de la temperatura real? 


d) ¿Cuál es la media de la lectura? 
e) ¿Cuál es la mediana de la lectura? 


/) ¿Cuál es la desviación estándar? 


. Se lanzan dos dados. En virtud de que salen dos números 


diferentes, ¿cuál es la probabilidad de que en uno de los da- 
dos salga el número 6? 
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10. 


11. 


12. 


13. 
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En un lote de diez componentes se extrae aleatoriamente dos 
para inspección. Suponga que, de hecho, exactamente dos de 
los diez componentes del lote están defectuosos. Sea X el 
número de componentes extraídos que están defectuosos. 


a) Determine P(X = 0). 

b) Determine P(X = 1). 

Cc) Determine P(X = 2). 

d) Determine la función de masa de probabilidad de X. 
e) Determine la media de X. 


f) Determine la desviación estándar de X. 


Un dispositivo eléctrico tiene dos fusibles. Sea que X repre- 
sente el tiempo de vida del primer fusible y sea que Y deno- 
te el del segundo (ambos en años). Suponga que la función 
de densidad de probabilidad conjunta de X y Y es 


1 
x/2-y/3 
f(x, y) == 6 


0 de otro modo 


x>0yy>0 


a) Determine P(X< 2 y Y < 3). 


b) Determine la probabilidad de que ambos fusibles duren 
al menos tres años. 


c) Determine la función de densidad de probabilidad mar- 
ginal de X. 


d) Determine la función de densidad de probabilidad mar- 
ginal de Y. 


e) ¿X y Y son independientes? Explique. 


Sean A y B eventos con P(A) = 0.3 y P(A U B) = 0.7. 


a) ¿Para qué valor de P(B), A y B serán mutuamente exclu- 
yentes? 


b) ¿Para qué valor de P(B), A y B serán independientes? 


Un fabricante de tablas deslizadoras en nieve tiene tres 
plantas en Estados Unidos, una en el este, otra en el oeste y 
otra en Canadá. Los registros de producción muestran que 
cada una de las plantas en Estados Unidos produjo diez mil 
tablas deslizadoras el mes pasado, mientras que la planta en 
Canadá produjo ocho mil. De las tablas producidas en Ca- 
nadá el mes pasado, 4% tiene un defecto que provocó que 
se deslaminarán prematuramente. Los registros de las plan- 
tas de Estados Unidos muestran que 3% de las tablas pro- 
ducidas en el este y 6% de las del oeste también presentan 
este defecto. 


a) ¿Cuál es la proporción de las tablas fabricadas el mes 
pasado que estaban defectuosas? 


14. 


15. 


16. 


17. 


18. 


b) ¿Cuál es la probabilidad de que una tabla deslizadora es- 
té defectuosa y se haya fabricado en Canadá? 


c) Dado que una tabla deslizadora está defectuosa, ¿cuál es 
la probabilidad de que se haya fabricado en Estados 
Unidos? 


El artículo “Traps in Mineral Valuations—Proceed With 
Care” (W. Lonegan, en Journal of the Australian Institute of 
Mining and Metallurgy, 2001:18-22) modela el valor (en 
millones de dólares) de un depósito de minerales que aún no 
se ha abierto como una variable aleatoria X con una función 
de masa de probabilidad p(x) dada por p(10) = 0.40, p(60) 
= 0.50, p(80) = 0.10 y p(x) = 0 para valores de x diferen- 
tes a 10, 60 u 80. 


a) ¿Este artículo considera el valor de un depósito mineral 
como una variable aleatoria discreta o continua? 


b) Calcule ux. 
c) Calcule Ox. 


d) El proyecto será rentable si el valor es mayor a $50 mi- 
llones. ¿Cuál es la probabilidad de que el proyecto sea 
rentable? 


Seis recién graduados fueron contratados por una empresa 
de ingeniería. A cada uno se le asignó aleatoriamente uno de 
los seis cubículos que están en fila al final de la oficina. Dos 
de los graduados son Bill y Cathy. ¿Cuál es la probabilidad de 
que a ellos se les asigne cubículos adyacentes? 


Un clóset contiene cuatro pares de zapatos. Si se escogen 
aleatoriamente cuatro zapatos, ¿cuál es la probabilidad de 
que de los zapatos elegidos no se tenga un par? 


Sean X y Y variables aleatorias independientes con Uy = 2, 
Ox = 1, Uy = 2 y 0, = 3. Encuentre las medias y varianzas 
de las siguientes cantidades. 


a) 3X 

b X+Y 

co) Xx=Y 

d) 2X + 6Y 

Sean X y Y variables aleatorias independientes con Ux = 1, 


Ox = 2, Uy = 3, 0y= 1 y Px y = 0.5. Encuentre las medias 
y varianzas de las siguientes cantidades. 


a X+Y 
by X-Y 
c) 3X + 2Y 
d) SY — 2X 


19. 


20. 


21. 


22. 


Un productor de acero está probando un nuevo aditivo para 
fabricar una aleación de acero. La función de masa de pro- 
babilidad conjunta de la intensidad de la tensión (en miles 
de libras/pulg”) y la concentración aditiva es 


Intensidad de la tensión 


Concentración de aditivo 100 150 200 
0.02 0.05 0.06 0.11 
0.04 0.01 0.08 0.10 
0.06 0.04 0.08 0.17 
0.08 0.04 0.14 0.12 


a) ¿Cuáles son las funciones de masa de probabilidad mar- 
ginal de X (concentración aditiva) y Y (intensidad de la 
tensión)? 


b) ¿X y Y son independientes? Explique. 


Cc) Dado que un especimen tiene una concentración aditiva 
de 0.04, ¿cuál es la probabilidad de que la intensidad de 
la tensión sea de 150 o mayor? 


d) Dado que una especie tiene una concentración aditiva de 
0.08, ¿cuál es la probabilidad de que la intensidad de la 
tensión sea mayor a 125? 


e) Cierta aplicación requiere que la intensidad de la tensión 
sea igual o mayor a 175. ¿Qué concentración aditiva de- 
be utilizarse para que la probabilidad de cumplir con es- 
ta especificación sea máxima? 


Con referencia al ejercicio 19. 


a) Determine Uy. 
b) Determine uy. 
c) Determine Ox. 
d) Determine Oy. 
e) Determine Cov(X, Y). 


$) Determine px y- 


Con referencia al ejercicio 19. 


a) Calcule la función de masa condicional pyx(y | 0.06). 
b) Calcule la función de masa condicional Px¡y(x | 100). 
c) Calcule la esperanza condicional E(Y | X = 0.06). 
d) Calcule la esperanza condicional E(X | Y = 100). 


Cierta planta opera en tres etapas al día. De todas las unida- 
des fabricadas, 50% se produce durante la primera etapa, 
30% en la segunda y 20% en la tercera. De todas las unida- 


23. 


24. 


25. 
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des fabricadas en la primera etapa, 1% está defectuosa, 
mientras que 2% de la segunda y 3% de la tercera están de- 
fectuosas. 


a) Se extrae una unidad aleatoriamente de la producción 
diaria y está defectuosa. ¿Cuál es la probabilidad de que 
se haya fabricado durante la primera etapa? 


b) Se extrae una unidad aleatoriamente de la producción 
diaria y no está defectuosa. ¿Cuál es la probabilidad de 
que haya sido fabricada durante la tercera etapa? 


El artículo “Uncertainty and Climate Change” (G. Heal y B. 
Kristóm, en Environmental and Resource Economics, 2002: 
3-39) considera tres escenarios, A, B y C, para el impacto 
del calentamiento global en el ingreso. Para cada escenario 
se especifica una función de masa de probabilidad para la 
pérdida de ingreso. Éstas se presentan en la siguiente tabla. 


Probabilidad 
Pérdida (%) Escenario A Escenario B Escenario C 
0 0.65 0.65 0.65 
2 0 0 0.24 
5 0.2 0.24 0.1 
10 0 0 0.01 
15 0.1 0.1 0 
20 0 0.01 0 
25 0.05 0 0 


a) Calcule la media y desviación estándar de la pérdida en 
el escenario A. 


b) Calcule la media y desviación estándar de la pérdida en 
el escenario B. 


c) Calcule la media y desviación estándar de la pérdida en 
el escenario C. 


d) En cada escenario, calcule la probabilidad de que la pér- 
dida sea menor a 10 por ciento. 


Con referencia al ejercicio 23, suponga que las probabilida- 
des de que ocurra cada uno de los tres escenarios son P(A) 
= 0.20, P(B) = 0.30 y P(C) = 0.50. 


a) Determine la probabilidad de que ocurra el escenario A 
y que la pérdida sea de 5%. 


b) Encuentre la probabilidad de que la pérdida sea de 5%. 


c) Determine la probabilidad de que suceda el escenario A 
dado que la pérdida es de 5%. 


Una caja contiene cuatro focos de 75W, tres de 60W y tres 
focos fundidos. Se selecciona aleatoriamente dos focos de 
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26. 


27. 


28. 
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la caja. Sea X el número de focos seleccionados de 75 W, Y 
representa el número de focos seleccionados de 60 W. 


a) Determine la función de masa de probabilidad conjunta 
de X y Y. 


b) Determine uy. 
c) Determine uy. 
d) Determine Ox. 
e) Determine Oy. 
f) Determine Cov(X, Y). 


g) Determine Px y. 


Una provisión de una solución de ácido clorhídrico (HCl) 
distribuida por cierto vendedor contiene pequeñas cantida- 
des de diversas impurezas, incluyendo cobre y níquel. Sea 
X la cantidad de cobre y Y representa la cantidad de níquel, 
en partes por diez millones, en una botella de la solución se- 
leccionada aleatoriamente. Suponga que la función de den- 
sidad de probabilidad conjunta de X y Y está dada por 


cx +yY 
0 de otro modo 


O<x<1ly0<y<l 
| > d 


a) Determine el valor de la constante c de tal forma que 
Kx,y) sea una función de densidad conjunta. 


b) Calcule la función de densidad marginal fx). 

c) Calcule la función de densidad condicional fyy(y | 1). 
d) Calcule la esperanza condicional E(Y | X = 0.4). 

e) ¿X y Y son independientes? Explique. 


Con referencia al ejercicio 26. 


a) Determine uy. 
b) Determine 0%. 
c) Determine Cov(X, Y). 


d) Determine px y. 


Se lanza una moneda al aire cinco veces. ¿Qué secuencia es 
más probable, HTTHH o HHHHH? ¿O son igualmente pro- 
bables? Explique. 


29. 


30. 


31. 


32. 


Se lanza al aire una moneda de 25 centavos y otra de 5 cen- 
tavos. La primera tiene una probabilidad de 0.4 de que cai- 
ga en “cara” y la segunda tiene una probabilidad de 0.6 de 
que caiga “cara”. Sea X = 1 si la primera moneda cae en 
“cara” y sea X = 0 si cae en “cruz”. Sea Y = 1 si la mone- 
da de 5 centavos, la segunda, cae en “cara” y Y = 0 si cae en 


3 ” 


cruz”. 


a) Determine la función de masa de probabilidad de X. 

b) Determine la función de masa de probabilidad de Y. 

c) ¿Es razonable suponer que X y Y son independientes? 
¿Por qué? 

d) Determine la función de masa de probabilidad conjunta 
de X y Y. 


Se lanzan dos dados. X representa el número que aparece en 
el primero y Y el que aparece en el segundo. Encuentre Uyy. 


Una caja contiene tres cartas, 1, 2 y 3. Se eligen aleatoria- 
mente dos de ellas, se reemplaza la primera antes de que 
salga la segunda. X representa el número en la primera y Y 
representa en la segunda. 


a) Determine la función de masa de probabilidad conjunta 
de X y Y. 


b) Determine la funcione de masa de probabilidad margi- 
nal px(x) y pro). 

c) Determine Uy y y. 

d) Determine Uxy. 

e) Determine Cov(X, Y). 


Con referencia al ejercicio 31, suponga que no se reempla- 
za la primera carta antes de que salga la segunda. 


a) Determine la función de masa de probabilidad conjunta 
de X y Y. 


b) Determine la función de masa de probabilidad marginal 
PXC0 y PY). 
Determine Uy y y. 


x= 


C 
d 


e 


=> 


Determine Uxy. 
Determine Cov(X, Y). 


= 


Capítulo 


Propagación 
de errores 


Introducción 


La medición es fundamental en el trabajo de investigación. Con frecuencia científicos e inge- 
nieros realizan cálculos con cantidades medidas; por ejemplo, para calcular la densidad de un 
objeto se divide una medición de su masa entre la de su volumen, o al calcular el área de un rec- 
tángulo se multiplican su longitud y anchura. 

Cualquier procedimiento de medición tiene errores. Por consiguiente, en general los va- 
lores medidos son algo diferentes de los valores reales. Cuando se realiza un cálculo con me- 
diciones, los errores en éstas producen un error en el valor calculado. Decimos que el error se 
propaga de las mediciones al valor calculado. Si se tiene cierto conocimiento con respecto al 
tamaño de los errores en las mediciones, como en la longitud y el ancho de un rectángulo, 
existen métodos para conocer la magnitud del error en una cantidad calculada como el área. 
La propagación de errores trata estos métodos y es el tema de este capítulo. 


3.1 Error de medición 


Una geóloga pesa una roca en una balanza. Toma cinco mediciones y obtiene los siguientes 
datos (en gramos): 


251.3 252.5 250.8 251.1 250.4 
Todas las mediciones son diferentes y es probable que ninguna sea igual a la masa real de la 


roca. A la diferencia entre un valor medido y el valor real se le llama error en el valor medi- 
do. Cualquier procedimiento de medición tiene muchas fuentes de error. Por ejemplo, supon- 
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ga que las mediciones de la roca se leían en una marca en una escala. Si la balanza no estaba 
calibrada adecuadamente, cada medición estará lejos de su valor real en cierta cantidad fija. 
Por tanto, una calibración imperfecta aporta errores de la misma magnitud en cada medición. 
La interpolación entre las marcas de graduación de la escala es otra fuente de error. La mag- 
nitud del error debida a la interpolación quizá varíe entre mediciones y es probable que sea 
benéfico para algunas mediciones y negativo para otras. Es razonable suponer que a largo pla- 
zo el promedio de los errores por interpolación será igual a cero. 

En general, se puede pensar que el error de una medición lo integran el error sistemá- 
tico, o sesgo, y el error aleatorio. El primero representa la parte del error que es igual para 
cada medición; el segundo varía entre mediciones y, en promedio, será igual a cero en el lar- 
go plazo. Algunas fuentes de error contribuyen con ambos tipos de error, el sesgo y el error 
aleatorio. Por ejemplo, considere el error de paralaje. Este último constituye la diferencia en 
la posición evidente de la marca cuando se observa desde ángulos diferentes. La magnitud de 
este tipo de error en cualquier medición especial depende de la posición del observador con 
respecto a la escala. Como consecuencia de que la posición variará un poco entre lecturas, el 
paralaje contribuye al error aleatorio. Si el observador tiende a apoyarse en algo de un lado 
en vez de otro, el paralaje también contribuirá al sesgo. 

Cualquier medición se puede considerar como la suma del valor real más las contribu- 
ciones de cada uno de los dos componentes del error: 


Valor medido = Valor real + sesgo + error aleatorio (3.1) 


Puesto que parte del error es aleatorio, es adecuado utilizar un modelo estadístico para estu- 
diar los errores de medición. Se modela cada valor medido como una variable aleatoria, to- 
mada de una población de mediciones posibles. La media y de la población representa esa 
parte de la medición que es igual para toda medición. Por tanto, yu es la suma del valor real 
más el sesgo. La desviación estándar a de la población representa la desviación estándar del 
error aleatorio. Ésta representa la variación debida al hecho de que cada medición tiene un va- 
lor diferente por su error aleatorio. Intuitivamente, d” constituye el tamaño de un error aleato- 
rio estándar. 

Se tiene interés en dos aspectos del proceso de medición. El primero es su exactitud. 
Ésta la determina el sesgo, que es la diferencia entre la media yu de la medición y el valor real 
de esta última. Entre más pequeño sea el sesgo, más exacto será el proceso de medición. Si la 
media yu es igual al valor real, el sesgo será igual a 0; en esta tesitura, al proceso de medición 
se le llama no sesgado. 

El otro aspecto del proceso de medición de interés es la precisión. Ésta constituye el 
grado con que tienden a coincidir las mediciones repetidas de la misma cantidad. Si las me- 
diciones repetidas resultan cercanas entre sí todo el tiempo, la precisión es alta. Si son muy 
dispersas, la precisión es baja. Por tanto, la precisión se determina mediante la desviación es- 
tándar o del proceso de medición. Entre más pequeño sea el valor de a, más preciso será 
aquél. Con frecuencia ingenieros y científicos se refieren a a como incertidumbre aleatoria 
o incertidumbre estadística del proceso de medición. A d se le llamará en forma más sim- 
ple incertidumbre. 

Cuando se notifica un valor medido, es importante reportar una estimación aproximada 
del sesgo y de la incertidumbre de éste, con la finalidad de describir la exactitud y la preci- 
sión de la medición. Generalmente es más fácil estimar la incertidumbre que el sesgo. Las fi- 
guras 3.1 y 3.2 ilustran el porqué de lo anterior. La figura 3.1 muestra un experimento 
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m Un valor medido representa una variable aleatoria con media yu y desviación están- 
dar Cr. 


mM El sesgo en el proceso de medición constituye la diferencia entre la media de las 
mediciones y el valor real: 


Sesgo = q — valor real 


E La incertidumbre en el proceso de medición es la desviación estándar a. 


Entre más pequeño sea el sesgo, más exacto será el proceso de medición. 


mM Entre más pequeña sea la incertidumbre, más preciso será el proceso de medición. 


hipotético que implica mediciones repetidas, en condiciones diferentes, donde se considera al 
sesgo y la incertidumbre. Los conjuntos de mediciones en las figuras 3.1a y b están bastante cer- 
canos, indicando que la incertidumbre es pequeña. Por su parte, los que corresponden a las fi- 
guras 3.1a y c se encuentran centrados cerca del valor real, indicando que el sesgo es pequeño. 


É—_- o —_—_—_—_—_—_— —_——____________9CH OO AAKÁ. 
Valor real Valor real 
a) b) 
*-——0—00—0— 0 — 000 e—00 00-06-0006 
Valor real Valor real 


e) d) 


FIGURA 3.1 a) Tanto el sesgo como la incertidumbre son pequeños. b) El sesgo es gran- 
de; la incertidumbre es pequeña. c) El sesgo es pequeño; la incertidumbre es grande. d) 
Tanto el sesgo como la incertidumbre son grandes. 


Por supuesto, en la vida real no se conoce el valor real que se está midiendo. Por tanto, 
los dibujos de las mediciones que se muestran en la figura 3.1 se parecerían a la figura 3.2 (p. 
160). Se puede determinar que los conjuntos de mediciones en las figuras 3.2a y b tienen in- 
certidumbre más pequeña. Pero sin información adicional acerca del valor real, no se puede 
calcular el sesgo. 

Se concluye de las figuras 3.1 y 3.2 que la incertidumbre se puede calcular de las me- 
diciones repetidas, pero para estimar el sesgo, se debe tener información adicional acerca 
del valor real. Se puede obtener esta información adicional, por ejemplo, midiendo repetida- 
mente una cantidad usual cuyo valor real se conoce y estimar al sesgo como la diferencia en- 
tre el promedio de las mediciones y el valor real conocido. Otra manera para calcular el sesgo 
sería comparar el promedio de gran número de mediciones con otra hecha con un proceso más 
elaborado para el que se sabe que el sesgo es despreciable. La estimación del sesgo es esen- 
cialmente el proceso de calibración, para el cual se necesita información externa al dispositi- 
vo de medición. 
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———_____ o oo ACI AKÁ 
a) b) 

09000000 — —_—_—____ o o 
c) d) 


FIGURA 3.2 Se puede estimar la incertidumbre del conjunto de mediciones repetidas, pero si no se co- 
noce el valor real no es posible calcular el sesgo. 


Se sabe que una muestra de laboratorio de gas tiene una concentración de monóxido de car- 
bono (CO) de 50 partes por millón (ppm). Se utiliza un espectrómetro para tomar cinco me- 
diciones independientes de esta concentración. Las cinco mediciones, en ppm, son 51, 47, 53, 
53 y 48. Estime el sesgo y la incertidumbre en una medición del espectrómetro. 


Solución 

Se consideran las cinco mediciones como una muestra aleatoria de la población de mediciones 
posibles. El sesgo es igual a la media de esta población menos el valor real de 50. La incerti- 
dumbre representa la desviación estándar de la población. No se conoce la media ni la des- 
viación estándar de la población, pero éstas se pueden aproximar con la media y la desviación 
estándar de la muestra. La media de las cinco mediciones es 50.4. Por tanto, se estima que el 
sesgo es de 50.4 — 50 = 0.4 ppm. La desviación estándar de las cinco mediciones es 2.8 ppm. 
Por consecuencia, se estima que la incertidumbre en cada medición es de 2.8 ppm. 


Ahora se utiliza un espectrómetro diferente para medir la concentración de CO en otra mues- 
tra de gas. La concentración real de esta muestra es desconocida. Se hacen cinco mediciones 
(en ppm). Éstas son 62, 63, 61, 62 y 59. Estime la incertidumbre en una medición de este es- 
pectrómetro. ¿Se puede estimar el sesgo? 


Solución 

La incertidumbre en una sola medición se estima con la desviación estándar de la muestra, 
que es 1.5 ppm. La media de la muestra es 61.4 ppm, pero para estimar el sesgo se tendría que 
restar la concentración real de la media. Debido a que no se conoce la concentración real, no 
se puede estimar el sesgo. 


En la práctica, las estimaciones aproximadas de la incertidumbre son a veces muy apro- 
ximadas. En los ejemplos 3.1 y 3.2 se sugiere estimar la incertidumbre a con la desviación 
estándar de la muestra de cinco mediciones. Las estimaciones que se basan en muestras pe- 
queñas parecidas a esta en ocasiones están muy equivocadas. Cuando es posible, es mejor es- 
timar la incertidumbre con base en muestras grandes. Sin embargo, una estimación de una 
muestra pequeña es mejor que ninguna. 
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Sean X;, ..., X, mediciones independientes, todas se hacen con el mismo proceso en 
la misma cantidad. 


mM La desviación estándar s de la muestra se puede utilizar para estimar la incertidumbre. 


mM Las estimaciones de la incertidumbre con frecuencia son muy aproximadas, espe- 
cialmente cuando se basan en muestras pequeñas. 


E Si se conoce el valor real, la media de la muestra X se puede utilizar para estimar 
el sesgo: Sesgo = X, valor real. 


mM Si el valor real no se conoce, el sesgo no se puede estimar a partir de las medicio- 
nes repetidas. 


Un ejemplo importante de la estimación de sesgo es la calibración de balanzas en su- 
permercados y otros establecimientos comerciales para asegurar que no pesan sistemática- 
mente de más o de menos los artículos. A este procedimiento le sigue una serie de 
comparaciones con patrones externos, comenzando en el ámbito jurisdiccional y terminando 
cerca de París, Francia, donde se localiza el patrón mundial final para el peso (técnicamente 
la masa). Éste es el prototipo internacional del kilogramo, un cilindro de platino-iridio cuya 
masa es por definición exactamente 1 kg. Una réplica del kilogramo se localiza en el Labora- 
torio Nacional de Normas y Tecnología, en Washington, el cual sirve de patrón para todas las 
mediciones de peso en Estados Unidos. El uso de esta réplica, en vez del kilogramo, introdu- 
ce un sesgo en cada medición de peso en ese país. Comparando la réplica de Estados Unidos 
con el kilogramo, el sesgo se ha estimado en —1.9 x 10” kg. Es decir, la réplica que se en- 
cuentra en Estados Unidos parece más ligera que el kilogramo en aproximadamente 19 par- 
tes en mil millones. Por esta razón, todas las mediciones de peso que se hacen en el 
Laboratorio Nacional de Normas y Tecnología se ajustan hacia arriba en 19 partes en mil mi- 
llones para compensar. Observe que este factor de ajuste no se podía haber calculado pesan- 
do repetidamente la réplica; se requirió comparar con un patrón externo. 

De ahora en adelante, a menos que se indique lo contrario, se supondrá que este sesgo 
se ha reducido a un nivel despreciable. Se describirán las mediciones en la forma 


Valor medido + «Ur (3.2) 


donde d representa la incertidumbre en el proceso que produjo el valor medido. 

La expresión (3.2) tiene la forma a + b, donde a y b son números. Es importante dar- 
se cuenta que las expresiones que contienen el símbolo + pueden tener muchos significados. 
El significado aquí es que a es un valor medido y b constituye la incertidumbre en a. Algu- 
nas personas usan a + b para indicar que b es el valor máximo para el error, o que b es un 
múltiplo de la incertidumbre, generalmente dos o tres veces la incertidumbre. Se presentará 
incluso otro significado en el capítulo 5, donde se usará la notación a + b para denotar un in- 
tervalo de confianza, que es un intervalo que se calcula de tal forma para que probablemente 
contenga al valor real. Siempre que se encuentre con el símbolo + se debe asegurar que se 
comprende el contexto en el cual se utiliza. 
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El espectrómetro del ejemplo 3.1 se ha recalibrado, por lo que se puede suponer que el sesgo 
es despreciable. Ahora aquél se utiliza para medir la concentración de CO en otra muestra de 
gas. La medición es 55.1 ppm. ¿Cómo se expresaría esta medición? 


Solución 


A partir de las mediciones repetidas del ejemplo 3.1, la incertidumbre en una medición de es- 
te instrumento se estimó de 2.8 ppm. Por tanto, se reporta la concentración de CO en esta 


muestra de gas como 55.1 + 2.8 ppm. 


Ejercicios de la sección 3.1 


. Se mide cuatro veces el punto de ebullición del agua. Los 
resultados son 110.01*C, 110.02*”C, 109.99*C y 110.01*C. 
¿Cuál de los siguientes enunciados describe mejor este pro- 
ceso de medición? 


i. Exacto, pero no preciso. 
li. Preciso, pero no exacto. 
iii. Ni exacto ni preciso. 


iv. Tanto exacto como preciso. 


. Se usan dos aparatos para medir el punto de fusión del p- 
amino-benceno. Se toman números iguales de mediciones 
en cada uno de los aparatos. El resultado en el primer apa- 
rato es 90 + 1*C y el resultado en el segundo es 90 + 2*C. 


a) ¿Se puede decir qué aparato es más exacto? Si es así, in- 
dique cuál. Si no, explique por qué. 

b) ¿Se puede decir qué aparato es más preciso? Si es así, 
diga cuál. Si no, explique por qué. 


. La longitud de un objeto está dada como 3.21 + 0.02 cm. 
Verdadero o falso: 


a) La longitud se midió de 3.21 cm. 
b) La longitud real del objeto es de 3.21 cm. 
c) El sesgo en la medición es de 0.02 cm. 


d) La incertidumbre en la medición es de 0.02 cm. 


. Para algunos procesos de medición, la incertidumbre es 
aproximadamente proporcional al valor de la medición. Por 
ejemplo, se dice que cierta balanza tiene una incertidumbre 
de + 2%. Se pesa un objeto en esta balanza. 


a) Dado que la lectura es de 100 g, exprese la incertidum- 
bre en esta medición, en gramos. 


b) Dado que la lectura es de 50 g, exprese la incertidumbre 
en esta medición, en gramos. 


. Una persona se para sobre una balanza de baño. La lectura 


es de 150 lb. Después de que la persona se baja, dicha lec- 
tura es de 2 libras. 


a) ¿Es posible estimar la incertidumbre en esta medición? 
Si es así, estímela. Si no, explique por qué. 


b) ¿Es posible estimar el sesgo en esta medición? Si es así, 
estímelo. Si no, explique por qué. 


. Una persona sube y baja de una balanza de baño cuatro ve- 


ces. Las lecturas (en libras) son 148, 151, 150 y 152. Cada 
vez que la persona se baja de la balanza, la lectura es de 2 
libras. 


a) ¿Es posible estimar la incertidumbre en estas medicio- 
nes? Si es así, estímela. Si no, explique por qué. 


b) ¿Es posible estimar el sesgo en estas mediciones? Si es 
así, estímelo. Si no, explique por qué. 


. En un escenario hipotético, el Laboratorio Nacional de Nor- 


mas y Tecnología ha recibido una nueva réplica del kilogra- 
mo. Se pesa cinco veces. Las mediciones son las siguientes, 
en unidades de microgramos arriba de 1 kg: 114.3, 82.6, 
136.4, 126.8, 100.7. 


a) ¿Es posible estimar la incertidumbre en estas medicio- 
nes? Si es así, estímela. Si no, explique por qué. 


10. 


b) ¿Es posible estimar el sesgo en estas mediciones? Si es 
así, estímelo. Si no, explique por qué. 


Ahora se pesa el kilogramo cinco veces en una balanza di- 
ferente. Las mediciones son las siguientes, en unidades de 
microgramos arriba de 1 kg: 25.6, 26.8, 26.2, 26.8, 25.4. 


a) ¿Es posible estimar la incertidumbre en estas medicio- 
nes? Si es así, estímela. Si no, explique por qué. 


b) ¿Es posible estimar el sesgo en estas mediciones? Si es 
así, estímelo. Si no, explique por qué. 


Un nuevo y desconocido peso se pesa en la misma balanza 
que se utilizó en el ejercicio número 8 y la medición es 127 
ng arriba de 1 kg. Utilizando la información del ejercicio 8, 
¿es posible tener una medición más exacta? Si es así, ¿cuál 
es ésta? Si no, explique por qué. 


El artículo “Calibration of an FTIR Spectrometer” (P. Pan- 
kratz, en Statistical Case Studies for Industrial and Process 
Improvement, SIAM-ASA, 1997:19-38) describe el uso de 
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11. 
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un espectrómetro para hacer cinco mediciones del conteni- 
do de carbono (en ppm) de cierta placa de silicio cuyo con- 
tenido real de carbono se sabía que era de 1.1447 ppm. Las 
mediciones fueron 1.0730, 1.0825, 1.0711, 1.0870 y 
1.0979. 


a) ¿Es posible estimar la incertidumbre en estas medicio- 
nes? Si es así, estímela. Si no, explique por qué. 


b) ¿Es posible estimar el sesgo en estas mediciones? Si es 
así, estímelo. Si no, explique por qué. 


Se midió ocho veces la longitud de una varilla. Las medi- 
ciones en centímetros, en el orden en que fueron tomados, 
fueron 21.20, 21.22, 21.25, 21.26, 21.28, 21.30, 21.32 y 
21.35, 


a) ¿Estas mediciones parecen ser una muestra aleatoria de 
una población de mediciones posibles? ¿Por qué sí? o 
¿Por qué no? 

b) ¿Es posible estimar la incertidumbre en estas medicio- 
nes? Explique. 


3.2 Combinaciones lineales de las mediciones 


A menudo se suman constantes a las mediciones, se multiplican mediciones por constantes, 
o se suman dos o más mediciones. En esta sección se describe cómo se afectan las incerti- 
dumbres debido a estas operaciones aritméticas. Puesto que las mediciones son variables alea- 
torias y las incertidumbres son desviaciones estándar de estas variables aleatorias, los 
resultados que se usan para calcular las desviaciones estándar de combinaciones lineales de 
variables aleatorias se pueden aplicar para calcular las incertidumbres en combinaciones li- 
neales de las mediciones. Los resultados para variables aleatorias independientes se presenta- 
ron en la sección 2.5; los resultados más generales se mostraron en la sección 2.6. Aquí se 
aplican estos resultados a las mediciones independientes. Al final se analizan las mediciones 


dependientes. 


Se empieza por establecer los resultados básicos para calcular las incertidumbres en 
combinaciones lineales de mediciones independientes y después se continúa con algunos 


ejemplos. 


o 


Si X es una medición y c es una constante, entonces 


. , X, Son mediciones independientes y cy, .. 


O) 2) 
Oe X i++“ +9 Xp ydoz, A iO a 


Oex = |clox 


(3.3) 


. , C, SON Constantes, entonces 


(3.4) 
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El radio de un círculo mide 3.0 + 0.1 cm. Estime la circunferencia y determine la incertidum- 
bre en la estimación. 


Solución 

Sea R el radio del círculo. El valor medido de R es de 3.0 cm y la incertidumbre es la desvia- 
ción estándar de esta medición, que es dr = 0.1 cm. La circunferencia está dada por C = 211R. 
La incertidumbre en C es dc, la desviación estándar de C. Debido a que 277 es una constante, 
se tiene 


Oc = (21 |0R (utilizando la ecuación 3.3) 
= (6.28)(0.1 cm) 
= 0.63 cm 


La circunferencia es 18.84 + 0.63 cm. 


Un artículo se forma al colocar dos componentes, uno detrás de otro. Las longitudes de éstos 
se miden de manera independiente, por medio de un proceso que da una medición aleatoria 
con incertidumbre 0.1 cm. La longitud del artículo se estima sumando las dos longitudes me- 
didas. Suponga que las mediciones son 4.10 y 3.70 cm. Estime la longitud del artículo y de- 
termine la incertidumbre en el cálculo. 


Solución 
Sea X la longitud medida del primer componente y Y la longitud medida del segundo. La es- 
timación de la longitud es 7.80 cm. La incertidumbre es 


OX+Y =4 loz + os (utilizando la ecuación 3.4 con c, = c, = 1) 


= Y/0.1? + (0.1)? 


= 0.14 cm 


La estimación de la longitud es 7.80 + 0.14 cm. 


Un topógrafo mide el perímetro de un terreno rectangular. Toma medidas de dos lados adya- 
centes, 50.11 + 0.05 m y 75.21 + 0.08 m. Estas mediciones son independientes. Estime el 
perímetro del terreno y determine la incertidumbre en la estimación. 


Solución 
Sean X = 50.11 y Y = 75.21 las dos mediciones. El perímetro se estima como P = 2X + 2Y 
= 250.64 m y la incertidumbre en P es 


Op = 02X4+2Y 


= y 40; + 40; (utilizando la ecuación 3.4) 
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= y/4(0.05)? + 4(0.08)? 
= 0.19 m 


El perímetro es 250.64 + 0.19 m. 


En el ejemplo 3.6 el asistente del topógrafo sugiere que se calcule la incertidumbre en P me- 
diante un método diferente. Su razonamiento es que P = X + X + Y + Y, entonces 
Op = OX4+X4+Y+4Y 
= y 0% + 0% +07 +07 
= y (0.05)? + (0.05)? + (0.08)? + (0.08)? 
=0.13m 


Éste no concuerda con el valor de 0.19 m calculado en el ejemplo 3.6. ¿Cuál fue la equivoca- 
ción? 

Solución 

La equivocación fue que de los cuatro términos de la suma no todos son independientes. Es- 
pecíficamente, X + X no es la suma de cantidades independientes y tampoco Y + Y Con el 
fin de utilizar la ecuación (3.4) para calcular la incertidumbre en P, se debe expresar a P co- 
mo la suma de cantidades independientes; es decir, P = 2X + 2Y, como en el ejemplo 3.6. 


Mediciones repetidas 


Una de las mejores maneras de reducir la incertidumbre es tomar varias mediciones indepen- 
dientes y determinar el promedio de ellas. Las mediciones en este caso son una muestra alea- 
toria simple de una población y su promedio es la media de la muestra. Los métodos para el 
cálculo de la media y de la desviación estándar de una muestra se presentaron en las seccio- 
nes 2.5 y 2.6. Estos métodos se pueden aplicar para calcular la media y la incertidumbre en 
el promedio de las mediciones repetidas independientes. 


SiX¡,...,X, son mediciones n independientes, cada una con media y e incertidum- 
bre a, entonces la media de la muestra X es una medición con media 
uz =p (8-3) 
y con incertidumbre 
o 
O7= == (3.6) 


Con un poco de paciencia se puede ver por qué son importantes estos resultados para 
las aplicaciones. De hecho muestran que si se realizan muchas mediciones independientes de 
la misma cantidad, entonces el promedio de éstas tiene la misma media de cada medición in- 


166 


CAPÍTULO 3 Propagación de errores 


dividual, pero la desviación estándar se reduce en un factor igual a la raíz cuadrada del tama- 
ño de la muestra. En otras palabras, el promedio de varias mediciones repetidas tiene la mis- 
ma exactitud y es más preciso que cualquier única medición. 


La longitud de un componente se mide con un proceso cuya incertidumbre es de 0.05 cm. Si 
se hicieron 25 mediciones independientes y se utiliza el promedio de éstas para estimar la lon- 
gitud, ¿cuál será la incertidumbre? ¿Cuánto más preciso es el promedio de 25 mediciones que 
el de una sola medición? 


Solución 

La incertidumbre en el promedio de 25 mediciones es 0.05/4/25 = 0.01 cm. La incertidum- 
bre en una sola medición es 0.05 cm. La incertidumbre en el promedio de las 25 mediciones 
independientes es, por tanto, menor que el de una sola medición por un factor de 5, que es la 
raíz cuadrada del número de mediciones que se promedian. Por tanto, el promedio de 25 me- 
diciones independientes es cinco veces más preciso que el de una sola medición. 


La masa de una roca se midió cinco veces en una balanza cuya incertidumbre no se conoce. 
Las cinco mediciones (en gramos) son 21.10, 21.05, 20.98, 21.12 y 21.05. Estime la masa de 
la roca y determine la incertidumbre en la estimación. 


Solución 

Sea X el promedio de las cinco mediciones y sea s la desviación estándar de la muestra. Se 
calcula X = 21.06 g y s = 0.0543 g. Utilizando la ecuación (3.6) se estimaría que la longi- 
tud del componente es de X +0/ v/5. No se conoce O, que es la incertidumbre, o la desvia- 
ción estándar, del proceso de medición. Sin embargo, se puede aproximar a a con s, la 
desviación estándar de la muestra de las cinco mediciones. Por tanto, se estima que la masa 
de la roca es de 21.06 + 0.0543/v/5, 021.06 + 0.02 g. 


En el ejemplo 3.6 dos lados adyacentes de un terreno rectangular se calcularon de X = 50.11 
= 0.05 m y Y = 75.21 + 0.08 m. Se supone que el presupuesto para este proyecto es sufi- 
ciente para hacer 14 mediciones más. Cada lado ya se ha medido una vez. Un ingeniero su- 
giere asignar las nuevas mediciones a cada lado equitativamente, por lo que éste será medido 
ocho veces. Un segundo ingeniero sugiere hacer las 14 mediciones en el lado más largo, ya 
que ese lado se mide con incertidumbre más grande. Estime la incertidumbre en el perímetro 
bajo cada plan. ¿Con cuál plan se obtiene la incertidumbre más pequeña? 


Solución 

Con el primer plan, sea X el promedio de las ocho mediciones del lado más corto y sea Y el 
promedio de las ocho mediciones del lado más largo. El perímetro se estimará con 2X + 2Y. 
La incertidumbre en el perímetro con el primer plan es, por tanto, 
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xy = 4) 40 + 407 (utilizando la ecuación 3.4) 


= utilizando la ecuación 3. 
8 2/8 


Ñ y m 4(0.08)? 
8 8 
= 0.067 m 


Con el segundo plan, el perímetro se estimará con 2X + 2Y, donde X es una sola medición 
del lado más corto y Y es el promedio de las 15 mediciones del lado más largo. La incerti- 
dumbre en el perímetro con el segundo plan es, por tanto, 


Ooxwoy = q/40 24 40 (utilizando la ecuación 3.4) 


7) 
] g 
= do? +4 (2) (utilizando la ecuación 3.6) 


4(0.08)? 


S y 4(0.05)? + =— 


=0.11m 


El primer plan es mejor. 


Mediciones repetidas con incertidumbres diferentes 


A veces al repetir las mediciones se puede tener incertidumbres diferentes. Esto puede ocu- 
rrir, por ejemplo, cuando las mediciones se hacen con instrumentos diferentes. La mejor ma- 
nera de combinar las mediciones en este caso es con un promedio ponderado, más que con la 
media de la muestra. En los ejemplos 3.11 y 3.12 se analiza esta idea. 


Un ingeniero mide el periodo de un péndulo (en segundos) de 2.0 + 0.2 s. Se hizo otra me- 
dición independiente con un reloj más preciso y el resultado es de 2.2 + 0.1 s. El promedio 
de estas dos mediciones es 2.1 s. Determine la incertidumbre en esta cantidad. 


Solución 

Sea X la medición con el reloj menos preciso, por lo que X = 2.0 s, con incertidumbre dy = 
0.2 s. Sea Y la medición con el reloj más preciso, por lo que Y = 2.2 s, con incertidumbre dy 
= 0.1 s. El promedio es (1/2)X + (1/2)Y = 2.10 y la incertidumbre en este promedio es 


1 
Oprom = 4 24 gor 


=1/02%+ 0.1 
= 4/70. q, 
=0.11s 
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En el ejemplo 3.11, otro ingeniero sugiere que debido a que Y es una medición más precisa 
que X, podría ser más preciso un promedio ponderado en el cual Y fuera más pesado que X que 
el promedio no ponderado. Específicamente, el ingeniero sugiere que al elegir una constante 
adecuada c entre O y 1, el promedio ponderado cX + (1 — c)Y podría tener una incertidum- 
bre más pequeña que el promedio no ponderado (1/2)X + (1/2)Y que se consideró en el ejem- 
plo 3.11. Expresando la incertidumbre en el promedio ponderado cX + (1 — c)Y en función 
de c se encuentra el valor de c que minimiza la incertidumbre. 


Solución 
La incertidumbre en el promedio ponderado es 


o = y co +(1- 00 
= y0.04c? + 0.01(1 — cy? 
= Y0.05c? — 0.02c + 0.01 


Ahora se debe encontrar el valor de c que minimiza a d. Esto es equivalente a encontrar el 
valor de c que minimice a 9”. Al tomar la derivada de 0? = 0.05c? — 0.02c + 0.01 con res- 
pecto a c y se iguala a 0: 


do? 


=0.10c -0.02=0 
dc ll 


Despejando c, se obtiene 
c=0.,2 


Por tanto, el promedio ponderado más preciso es 0.2X + 0.8Y = 2.16. La incertidumbre en 
esta estimación es 


mejor = y (0.270? + (0.820? = y(0.27.(0.2)? + (0.8)?(0.1)? =0.09 s 


Observe que ésta es menor que la incertidumbre de 0.11 s que se encontró para el promedio 
no ponderado que se usó en el ejemplo 3.11. 


La razón de los coeficientes X y Y en el mejor promedio ponderado es igual a la razón 
de las varianzas de Y y X: a/a; = 0.19/0.2? = 0.25 = 0.2/0.8 = c/(1 — c). Por tanto, se puede 
expresar los coeficientes en función de las varianzas: c = (0% + 07) =02 y 1=c= 
alaz + ay) = 0.8. Esta relación, en general, es válida. 


Si X y Y son mediciones independientes de la misma cantidad, con incertidumbres dz 
y Cy, respectivamente, entonces el promedio ponderado de X y Y con la incertidum- 


bre más pequeña está dado Cmejor A + (1 = Cmejor), Y donde 


p) PA 
6; O 
Y XxX 
Cmejor = 1— Cmejor = 6.7 
oz +07 0% +0 
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Combinaciones lineales de mediciones dependientes 


Imagine que X y Y son mediciones con incertidumbres dy y dy y se desea calcular la incerti- 
dumbre en la suma X + Y. Si X y Y son dependientes, la incertidumbre en la suma podría ser 
más grande o menor que en el caso independiente y no se puede determinar con sólo dx y Cy. 
Por ejemplo, si errores aleatorios positivos en X tienden a ocurrir al lado de errores aleatorios 
negativos en Y, y viceversa, aquéllos tenderán a contrarrestarse cuando se calcula la suma X 
+ Y así la incertidumbre en X + Y será más pequeña que en el caso independiente. Por otro 
lado, si los errores aleatorios en X y Y tienden a tener el mismo signo, la incertidumbre en X 
+ Y será mayor que en el caso independiente. 

La cantidad que mide la relación entre los errores aleatorios en X y Y es la covarianza, 
que se analizó en la sección 2.6. En general, si X,, ..., X, son mediciones y si se conoce la 
covarianza de cada par de mediciones, se puede utilizar la ecuación (2.72) (en la sección 2.6) 
para calcular la incertidumbre en una combinación lineal de las mediciones. 

En la práctica, cuando las mediciones son dependientes, sucede con frecuencia el caso 
de que no se conoce lo suficiente acerca de la dependencia para cuantificarla. En estos casos 
se puede colocar un límite superior a la incertidumbre de una combinación lineal de las me- 
diciones. Aquí se presenta el resultado; al final de esta sección se encuentra su demostración. 


Si X;, ..., X, son mediciones y Cy, ... ., C, Son constantes, entonces 


ES [cr lox, poso [c,10x, (3.8) 


La expresión del lado derecho de la desigualdad (3.8) es una estimación conservadora de la 
incertidumbre en c¡X +... +cC,X,,. 


Un topógrafo está midiendo el perímetro de un terreno rectangular. Mide dos lados adyacen- 
tes de 50.11 + 0.05 m y 75.21 + 0.08 m. Estas mediciones no son necesariamente indepen- 
dientes. Determine con una estimación conservadora la incertidumbre del perímetro del 
terreno. 


Solución 
Sean X, y X, las dos mediciones. Las incertidumbres son entonces dx, = 0.05 y dx, = 0.08 
y el perímetro está dado por P = 2X, + 2X,. Utilizando la desigualdad (3.8), se obtiene 


Op = 02X¡+2X> 
< 20x,+20x, 
= 2(0.05) + 2(0.08) 
= 0.26 m 


La incertidumbre en el perímetro no es mayor que 0.26 m. En el ejemplo 3.6 se calculó que 
la incertidumbre era de 0.19 m cuando X y Y son independientes. 


170 CAPÍTULO 3 Propagación de errores 


Deducción de la desigualdad 0. x, +...+c,x, < |C410x, + ** + +1Cnl0x, 


Esta deducción requiere material de la sección 2.6. Sean X;,... 


sean Cj,.. 
2 AD, 
o 
Coví(X;, X ;) 
Ahora PX; X; = paria tl 
Ox¡Ox; 


. , X, variables aleatorias y 


. , C, constantes. Utilizando la ecuación (2.72) (de la sección 2.6), 


n—1 n 


e. .+ O Ar DE E CiCj Coví(X;, X;) 


¡=1 j=i+1 


. Puesto que |px, x,| < 1, por lo que 


[Cov(X;, X;)] < 0x,0x, 


Ya que c¡c; Cov(X;, X;) < lc;¡|lc¡||Cov(X;, X;)], por lo que 


c¡c; Cov(X;, X;) E lc¡||c;[0x,0x, 


Sustituyendo, se obtiene 


2 DE 
De 


Puesto que c? = lc; |? 


n—1 n 


de ooo Se la + 2, ND [c;|lc;lox,ox; (3.9) 


i=l ¡=i+1 


, el lado derecho de la desigualdad (3.9) se puede factorizar: 


m=l a 
20 aa 2 
C10%, 00 ECO x, A ye [c;llejlox,ox, = Ueilox, +++ - + lenlox,) 
E 


Sustituyendo en la desigualdad (3.9) y tomando raíces cuadradas, se obtiene 


Madero teme, ES [er lox, posee [c,10x, 


Ejercicios de la sección 3.2 


1. Suponga que X y Y son mediciones independientes con in- rra en Estocolmo, Suecia, se estimó de 4.93 + 0.23 mm du- 


certidumbres dx = 0.2 y ay = 0.4. Determine las incerti- 
dumbres en las cantidades siguientes: 


a) 3X 
bX-Y 
Cc) 2X + 3Y 


. Una medición del diámetro de un cilindro tiene incertidum- 


bre de 2 mm. ¿Cuántas mediciones se deben hacer para que 
se pueda calcular el diámetro con una incertidumbre de só- 
lo 0.5 mm? 


. En el artículo “The World's Longest Continued Series of 
Sea Level Observations” (M. Ekman en Paleogeography, 
1988:73-77), la media del nivel anual de elevación de la tie- 


rante 1774-1884 y de 3.92 + 0.19 mm durante 1885-1984. 
Estime la diferencia en la media anual de elevación entre es- 
tos dos espacios de tiempo y determine la incertidumbre en 
el cálculo. 


. Un hueco cilíndrico es perforado con un bloque de acero y 


se fabrica un pistón cilíndrico que quepa en el hueco. El 
diámetro del hueco es 20.00 + 0.01 cm y el diámetro del 
pistón es 19.90 + 0.02 cm. La holgura es la mitad de la di- 
ferencia entre los diámetros. Estime la holgura y determine 
la incertidumbre en el cálculo. 


. El ancho y la altura de una pieza de madera de 2 x 4 son en 


realidad de 1.5 x3.5 pulg. Suponga que la incertidumbre en es- 
tas cantidades es despreciable. La longitud de una pieza de 


10. 


2 x 4 se mide de 72 = 0.1 pulg. Estime el volumen de la pie- 
za de madera y determine la incertidumbre en el estimación. 


. El periodo T de un péndulo simple está dado por 


T =2xY/L/g donde L es la longitud del péndulo y g la 
aceleración debido a la gravedad. Por tanto, si se miden £ y 
T, se puede calcular g con g = 4r”L/7?. Suponga que se sa- 
be que el periodo es T = 1.5 s con incertidumbre desprecia- 
ble y que se mide £ de 0.559 + 0.005 m. Estime g y 
determine la incertidumbre en la estimación. 


. La ley de Beer-Lambert relaciona la absorbancia A de una 


solución con concentración C de una especie en solución 
mediante A = MLC, donde L es la longitud de la trayecto- 
ria y Mes el coeficiente de absortividad molar. Suponga que 
C = 1.25 mol/em' y L = 1 cm, ambos con incertidumbre 
despreciable y que A = 1.30 + 0.05. Estime M y determi- 
ne la incertidumbre en la estimación. 


. En el flujo de Couette, dos placas planas grandes yacen una 


encima de otra, separándolas una fina capa de fluido. Si se 
aplica una fuerza cortante en la placa superior, la viscosidad 
del fluido también produce el movimiento de la placa inferior. 
La velocidad V en la placa superior en relación con la placa 
inferior está dada por V = Th/p, donde Tes la fuerza cortante 
aplicada a la placa superior, h es el espesor de la capa de flui- 
do y es la viscosidad del fluido. Suponga que uu = 1.49 Pa-s 
y h = 10 mm, ambos con incertidumbre despreciable. 


a) Suponga que T= 30.0 =— 0.1 Pa. Estime V y determine 
la incertidumbre en la estimación aproximada. 


b) Si se desea estimar V con una incertidumbre de 0.2 
mm/s, ¿cuál debe ser la incertidumbre en 7? 


. De acuerdo con la ley del enfriamiento de Newton, la tem- 


peratura T de un cuerpo al tiempo t está dado por T = T, + 
(T, — T,Je *, donde T, es la temperatura ambiente, T, es la 
temperatura inicial y k es la constante de razón de enfria- 
miento. Para cierto tipo de recipiente de bebida, el valor de 


k se sabe que es 0.025 min”. 


a) Suponga que T, = 36%F exactamente que T, = 72.0 + 
0.5%F. Estime la temperatura T al tiempo £ = 10 min y 
determine la incertidumbre en la estimación. 


b) Suponga que T, = 729F exactamente y que 7, = 36.0 + 
0.59F. Estime la temperatura 7 al tiempo 1 = 10 min y 
determine la incertidumbre en la estimación. 


En el artículo “Influence of Crack Width on Shear Behavior 
of SIFCON” (C. Fritz y H. Reinhardt, en High Performan- 
ce Fiber Reinforced Cement Composites: Proceedings of 
the International RILEM/ACI Workshop, 1992), la máxima 


3.2 Combinaciones lineales de las mediciones 


11. 


12. 


13. 


14. 


171 


tensión de corte Tde un miembro de concreto agrietado es- 
tá dada por T= T(1 — kw), donde 7, es la tensión de corte 
máxima para una grieta de ancho cero, w es el ancho de la 
grieta en mm y k es una constante que se estima de los da- 
tos experimentales. Suponga que k = 0.29 + 0.05 mm?. 
Dado que 7, = 50 MPa y w = 1.0 mm, ambos con incerti- 
dumbre despreciable, estime 7 y determine la incertidumbre 


en la estimación. 


Se hacen nueve mediciones independientes de la longitud 
de una varilla. El promedio de las nueve mediciones es X 
= 5.238 cm y la desviación estándar es s = 0.081 cm. 


a) ¿Está la incertidumbre en el valor 5.238 cm más cerca 
de 0.009, 0.027 o 0.081 cm? Explique. 


b) Otra varilla se mide una vez con el mismo proceso. La 
medición es 5.423 cm. ¿Está la incertidumbre de este 
valor más cerca de 0.009, 0.027 o 0.081 cm? Explique. 


Cierta balanza tiene una incertidumbre de 3 g y un sesgo de 
2 g. 


a) Se hace una sola medición en esta balanza. ¿Cuáles son 
el sesgo y la incertidumbre en esta medición? 


b) Se hacen cuatro mediciones independientes en esta ba- 
lanza. ¿Cuáles son el sesgo y la incertidumbre en el pro- 
medio de estas mediciones? 


c) Se hacen 400 mediciones independientes en esta balan- 
za. ¿Cuáles son el sesgo y la incertidumbre en el prome- 
dio de estas mediciones? 


d) Conforme se hacen más mediciones, ¿la incertidumbre se 
hace más pequeña, más grande o permanece constante? 


e) Conforme se hacen más mediciones, ¿el sesgo se hace 
más pequeño, más grande o permanece constante? 


El volumen de una roca se mide colocándola sobre un cilin- 
dro graduado parcialmente lleno de agua y se mide el aumen- 
to en el volumen. Se hacen ocho mediciones independientes. 
El promedio de las mediciones es 87.0 mL y la desviación es- 
tándar es 2.0 mL. 


a) Estime el volumen de la roca y determine la incertidum- 
bre en la estimación. 


b) Se hacen ocho mediciones adicionales, hasta hacer un to- 
tal de 16. ¿Cuál es la incertidumbre, aproximadamente, 
en el promedio de las 16 mediciones? 


c) Aproximadamente ¿cuántas mediciones se necesitarían 
para reducir la incertidumbre a 0.4 mL? 


Un estudiante mide la constante de un resorte k, se carga un 
resorte y se mide la elongación. (De acuerdo con la ley de 
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Hooke, si l es la carga y e la elongación, entonces k = l/e.) 
Suponga que se hacen cinco mediciones independientes y 
los valores medidos de k (en N/m) son 36.4, 35.4, 38.6, 36.6 
y 38.0. 


a) Estime la constante del resorte y determine la incerti- 
dumbre en la estimación. 


b) Determine un valor aproximado para la incertidumbre 
en el promedio de las diez mediciones. 


Cc) ¿Aproximadamente cuántas mediciones se deben hacer 
para reducir la incertidumbre a 0.3 N/m? 


d) Un segundo resorte, similar al primero, mide la constan- 


te del resorte una vez. El valor medido de k es 39.3. 
¿Aproximadamente cuál es el valor de la incertidumbre? 


Cierto proceso químico se opera diez veces a temperatura 
de 65*C y diez a 80”C. La producción en cada operación se 
midió como un porcentaje de un máximo teórico. Los datos 
se presentan en la tabla siguiente. 


65*C | 71.3 69.1 70.3 69.9 71.1 70.7 69.8 68.5 70.9 69.8 
soc | 90.3 90.8 91.2 90.7 89.0 89.7 91.3 91.2 89.7 91.1 


a) Para cada temperatura, estime la media de la producción 
y determine la incertidumbre en la estimación. 


b) Estime la diferencia entre las medias de las produccio- 
nes en las dos temperaturas y determine la incertidum- 
bre en la estimación. 


Se pesa un objeto cuatro veces y los resultados, en miligra- 
mos, son 234, 236, 233 y 229. Entonces el objeto se pesa 
cuatro veces en una balanza diferente y los resultados, en 
miligramos, son 236, 225, 245 y 240. Se usará el promedio 
de las ocho mediciones para estimar el peso. Alguien sugie- 
re estimar la incertidumbre en este cálculo de la siguiente 
manera: calcule la desviación estándar de las ocho medicio- 
nes. Llame a esta cantidad s. La incertidumbre es entonces 
s/v/8. ¿Es esto correcto? Explique. 


La longitud de un componente se estima por medio de me- 
diciones repetidas. 
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a) Se hacen diez mediciones independientes con un instru- 
mento cuya incertidumbre es 0.05 mm. Sea X el prome- 
dio de estas mediciones. Determine la incertidumbre en 
X. 


b) Un nuevo dispositivo de medición, cuya incertidumbre 
es de 0.02 mm, está disponible. Se hacen cinco medicio- 
nes independientes con este dispositivo. Sea Y el pro- 
medio de estas mediciones. Determine la incertidumbre 
enY. 


c) Con el fin de disminuir la incertidumbre aún más, se de- 
cide combinar las estimaciones de X y Y . Un ingenie- 
ro sugiere estimar la longitud con (UDX + (DY. Un 
segundo ingeniero argumenta que puesto que X está ba- 
sado en diez mediciones mientras que Y está basado sólo 
en cinco, una mejor estimación es (10/ I59X + (5/ 15 Y. 
Determine la incertidumbre en cada una de estas estima- 
ciones. ¿Cuál es más pequeña? 

d) Determine el valor c de forma que el promedio pondera- 
do cX + ( —- OY tenga una incertidumbre mínima. 
Determine la incertidumbre de este promedio ponderado. 


Las longitudes de dos componentes se medirán varias ve- 
ces. La incertidumbre en cada medición de la longitud del 
primer componente es 9, = 0.02 cm y la incertidumbre en 
cada medición de la longitud del segundo componente es 9, 
= 0.08 cm. Sea X el promedio de las mediciones del primer 
componente y Y el promedio de las mediciones del segun- 
do componente. La longitud total de los dos componentes 
se estimará con la cantidad X + Y . 


a) Determine la incertidumbre en la longitud total si el pri- 
mer componente se mide cuatro veces y el segundo 12 
veces. 


b) Determine la incertidumbre en la longitud total en fun- 
ción de n si el primer componente se mide n veces y el 
segundo componente se mide 16 — n veces. 


c) Determine la mejor manera de asignar 16 mediciones 
entre los componentes determinando el valor de n que 
minimiza la incertidumbre. 
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3.3 Incertidumbres para funciones de una medición 


Los ejemplos que se han visto hasta ahora implican calcular incertidumbres en funciones li- 
neales de mediciones. En muchos casos se desea estimar la incertidumbre de una función no 
lineal de una medición. Por ejemplo, si el radio R de un círculo mide 5.00 + 0.01 cm, ¿cuál 
es la incertidumbre en el área 4? En términos estadísticos, se sabe que la desviación estándar 
dar es de 0.01 cm y se debe calcular la desviación estándar de A, donde A es la función de R 
dada por A = TR”. 

El tipo del problema que se desea resolver es: dada una variable aleatoria X, con des- 
viación estándar conocida dy y dada una función U = U(X), ¿cómo se calcula la desviación 
estándar d,,? Si U es una función lineal, los métodos de la sección 3.2 son aplicables. Si U 
no es lineal, aún se puede aproximar d ¡,, multiplicando dx por el valor absoluto de la deriva- 
da dU/dX. La aproximación será buena en tanto dy sea pequeña. 


Si X es una medida cuya incertidumbre dy es pequeña y si U es una función de X, en- 
tonces 


dU 


e ox (3.10) 


OU 


En la práctica, se evalúa la derivada dU/dX en la medición observada X. 


La ecuación (3.10) se conoce como la fórmula de la propagación de error. Al final de esta 
sección se proporciona su demostración. 


Las incertidumbres de la propagación de errores 
están sólo aproximadas 


Las incertidumbres calculadas utilizando la ecuación (3.10) con frecuencia son sólo simples 
aproximaciones. Por esta razón, estas incertidumbres se deben expresar con no más de dos dí- 
gitos significativos. Efectivamente, algunos autores sugieren utilizar un solo digito significa- 
tivo. 


Las funciones no lineales están sesgadas 


Si X es una medición no sesgada de un valor real uz y si la función U = U(X) es una función 
no lineal de X, entonces en la mayoría de los casos U será una estimación sesgada del valor 
real U(ux). En la práctica este sesgamiento generalmente se desprecia. Se puede demostrar 
con métodos avanzados que el tamaño del sesgamiento depende de manera fundamental de 
las magnitudes de dx y de la segunda derivada d”U/dX?. Por tanto, conforme la incertidum- 
bre dx sea pequeña, el sesgamiento en U en general también lo será, excepto en algunas cir- 
cunstancias bastante inusuales cuando la segunda derivada es muy grande. Por supuesto, si X 
es una medición con sesgamiento no despreciable, entonces el sesgamiento en U podría ser 
grande. Estas ideas se analizan aún más en el ejercicio 22 de los ejercicios adicionales al fi- 
nal de este capítulo. 
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CAPÍTULO 3 Propagación de errores 


El radio R de un círculo mide 5.00 + 0.01 cm. Estime el área del círculo y determine la in- 
certidumbre. 


Solución 

El área A está dada por A = TR?. La estimación aproximada de A es (5.00 cm) = 78.5 cm?. 
Ahora, rg = 0.01 cm y dA/dR = 2r7R = 107 cm. La incertidumbre en A se puede encontrar 
como: 


= (107 cm)(0.01 cm) 
= 0.31 cm? 


Se estima el área del círculo de 78.5 + 0.3 cm?. 


Una roca que se identifica como cuarcita tamaño adoquín tiene una masa m de 674.0 g. Su- 
ponga que esta medición tiene una incertidumbre despreciable. El volumen V de la roca se 
medirá al colocarla en un cilindro graduado parcialmente lleno de agua y medir el volumen 
de agua desplazada. La densidad D de la roca se calculará como D = m/V. Suponga que el 
volumen del agua desplazada es 261.0 + 0.1 mL. Estime la densidad de la roca y determine 
la incertidumbre. 


Solución 

Sustituyendo V = 261.0 mL, la estimación de la densidad D es 674.0/261.0 = 2.582 g/mL. 
Tratando a m = 674.0 como una constante conocida, dD/dV = —674.0/ V = —674.0/(Q61 oy 
= 0.010 g/mL?. Se sabe que dy = 0.1 mL. La incertidumbre en D es, por tanto, 


dD 
Op = dv Oy 
= | —0.010/(0.1 g/mL) 
= 0.001 g/mL 


Se estima la densidad de 2.582 + 0.001 g/mL. 


Incertidumbres relativas para funciones de una medición 


Se ha estado llamando a la desviación estándar o, de una medición U como la incertidumbre 
en U. Un nombre más completo para a, es la incertidumbre absoluta, ya que se expresa con 
las mismas unidades que la medición U. A veces se desea expresar la incertidumbre como una 
fracción del valor real, la cual (suponiendo que no hay sesgamiento) representa la media de 
la medición 1, De hecho se le llama incertidumbre relativa en U. Esta última también se 
denomina coeficiente de variación. En la práctica, puesto que ¡1,, no se conoce, el valor me- 
dido de U se usa en su lugar cuando se calcula la incertidumbre relativa. 


3.3 Incertidumbres para funciones de una medición 175 


Si U es una medición cuyo valor real es 1, y cuya incertidumbre es dr, entonces la 
incertidumbre relativa en U es la cantidad O y/u. 


La respectiva incertidumbre es un número puro, sin unidades. Con frecuencia se 
expresa como porcentaje. En la práctica 4, no se conoce, por lo que si el sesgamien- 
to es despreciable, se estima la respectiva incertidumbre con a y/U. 


Hay dos maneras de calcular la incertidumbre relativa en una cantidad U. Simplemen- 
te con sólo utilizar la ecuación (3.10) para calcular la incertidumbre absoluta a, y dividir en- 
tre U. Para desarrollar el segundo método, se calculará la incertidumbre absoluta en In U: 


d(In U) OU 
0, 
dU U 


Omnu = 


Esta ecuación muestra que la incertidumbre absoluta en In U es igual a la incertidumbre rela- 
tiva en U. Por tanto, la segunda manera de calcular la incertidumbre relativa en U es calcular 
In U y después utilizar la ecuación (3.10) para calcular la incertidumbre absoluta en In U. 


Hay dos métodos para aproximar la incertidumbre relativa o ¿/U de una función U = 


UL: 


1. Calcule dutilizando la ecuación (3.10) y después divida entre U. 


2. Calcule ln U y use la ecuación (3.10) para encontrar 0, y, que es igual a o y/U. 


Ambos métodos funcionan en cada ejemplo, por lo que se puede utilizar el que sea más fácil 
para un problema específico. Esta elección generalmente se determina por lo que sea más fá- 
cil de calcular, la derivada de U o de ln U. 


El radio de un círculo mide 5.00 + 0.01 cm. Estime el área y determine la incertidumbre re- 
lativa. 


Solución 
En el ejemplo 3.14, el área A = TR? se estimó de 78.5 + 0.3 cm?. La incertidumbre absoluta 
es, por tanto, dr, = 0.3 cm? y la incertidumbre relativa es r¿/A = 0.3/78.5 = 0.004, Por tan- 
to, se puede expresar al área como A = 78.5 em? + 0.4 por ciento. 

Si no se hubiese ya calculado d,, sería más fácil calcular la incertidumbre relativa al 
calcular la incertidumbre absoluta en In A. Puesto que ln A = In TT + 2 1n R, d In A/dR = 2/R 
= 0,4, La incertidumbre relativa en A es 
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CA 
== OInA 


dinA 
dR 

= 0.40r 

= (0.4)(0.01) 


= 0.4% 


La aceleración de una masa que desciende en un plano inclinado sin fricción está dada por a 
= gsenó, donde g es la aceleración debida a la gravedad y 0 es el ángulo de inclinación del 
plano. Suponga que la incertidumbre en g es despreciable. Si 9 = 0.60 + 0.01 rad, determi- 
ne la incertidumbre relativa en a. 


Solución 

La incertidumbre relativa en a es la incertidumbre absoluta en Ina. Ahora ln a = In g + In- 
(sen0), donde ln g es constante. Por tanto, d ln a/d0 = d In(sen0)/d0 = cos0/senO = cotO = 
cot(0.60) = 1.46. La incertidumbre en O es 9 = 0.01. La incertidumbre relativa en a es, por 
tanto, 


Oa 
— = Olna 


d Ina 
d0 
= (1.46)(0.01) 


= 1.5% 


06 


Observe que la incertidumbre relativa en a = gsen6 no depende de la constante g. 


Deducción de la fórmula de propagación de errores 


Se deduce la fórmula de la propagación de errores para una función no lineal U de una va- 
riable aleatoria X aproximándola con una función lineal y después utilizando los métodos 
de la sección 3.2. Para encontrar una aproximación lineal a U, se usa una serie de Taylor 
aproximada a primer orden. Esto se conoce como linealizando el problema; ésta es una 
técnica comúnmente usada en ciencia e ingeniería. 

Sea U(X) una función derivable. Sea uy cualquier punto. Entonces si X está cerca de 
Mx. la serie de Taylor aproximada a primer orden para U(X) es 


dU 
U(X) — U(ux) = ax %=ux) (3.11) 


La derivada dU/dX se evalúa en uy. 
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Ahora sea X una medición y sea U(X) (a la que se llamará U) una cantidad calculada 
a partir de X. Sea uy la media de X. Para cualquier medición razonablemente precisa, X 
estará bastante cerca de uz para que la aproximación en serie de Taylor sea válida. 
Sumando U(ux ) en ambos lados de la ecuación (3.11) se obtiene 


O 
S: px IX px 


Multiplicando por dU/dX y arreglando los términos 


dU 


U=|U(ux) cd =P X 
s px qxéX IX 


Ahora la cantidad dU/dX es una constante, ya que ésta se encuentra evaluada en uz. Por 
tanto, la cantidad U(ux) — (dU/dX)uy es también constante. Por tanto, de la ecuación 
(2.46) (en la sección 2.5) se tiene que 


dU 


O 


OX 


Ésta es la fórmula de propagación de errores. Cuando se aplica, se evalúa la derivada 
dU/ldX en la medición observada X, puesto que no se conoce el valor de uz. 


Ejercicios de la sección 3.3 


1. Determine la incertidumbre en Y, dado que X = 4.0 + 0.4 y tamente de 5 m y que el tiempo medido es £ = 1.01 + 0.02 


a Y=X 
b) Y=yYX 
o) Y =1/X 
d) Y=1InX 
e Y=e* 


f) Y = sen X (X está en unidades de radianes) 


. Dado que X y Y están relacionados por la ecuación dada y 
que X = 2.0 + 0.2, estime Y y determine la incertidumbre 
en la estimación. 


a) XY=1 

db) XIY =2 

e) XVY =3 

d) YVX=4 

. La aceleración g debida a la gravedad se estima dejando 


caer un objeto y se mide el tiempo que le toma recorrer cier- 
ta distancia. Suponga que se sabe que la distancia s es exac- 


s. Estime g y encuentre la incertidumbre en la estimación. 
(Observe que g = 2s/f.) 


. La velocidad V del sonido en el aire a temperatura T está da- 


do por V = 20.04V//T, donde T está medida en grados kel- 
vin (K) y V en m/s. Suponga que T = 300 =+ 0.4 K. Estime 
V y determine la incertidumbre en la estimación. 


. El periodo T de un péndulo simple está dado por 


T = 2x1 /L/g donde L es la longitud del péndulo y g es 
la aceleración debida a la gravedad. 


a) Suponga que g = 9.80 m/s? exactamente y que L = 
0.742 + 0.005 m. Estime T y determine la incertidum- 
bre en la estimación. 


b) Suponga que L = 0.742 m exactamente y que T = 1.73 
= 0.01 s. Estime g y determine la incertidumbre en la 
estimación. 


. La altura h de aumento en el vaso capilar del agua en un tubo 


de vidrio limpio está dada por h = k/r, donde r es el radio 
del tubo y k es la constante que depende de la temperatura 
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del agua. Suponga que a una temperatura de 10%C, k = 7.57 
mm”. Suponga que el radio del tubo es 2.0 + 0.1 mm. Esti- 
me h y determine la incertidumbre en la estimación. 


. La velocidad de fricción F del agua que fluye a través de un 


tubo está dada por F = /gdh/4l, donde g representa la 
aceleración debida a la gravedad, d el diámetro del tubo, / 
la longitud del tubo y h la pérdida de carga. Estime F y de- 
termine la incertidumbre en la estimación, suponga que g = 
9.80 m/s? exactamente y que 


a) d=0.15 m y != 30.0 m, ambos con incertidumbre des- 
preciable y h = 5.33 + 0.02 m. 


b) h = 5.33 m y ! = 30.0 m, ambos con incertidumbre des- 
preciable y d = 0.15 + 0.03 m. 


c) d=0.15 m y h = 5.33 m, ambos con incertidumbre des- 
preciable y / = 30.00 + 0.04 m. 


. El índice de refracción n de una pieza de vidrio está relacio- 


nado con el ángulo crítico O por n = l/sen6. Suponga que el 
ángulo crítico se ha medido de 0.70 + 0.02 rad. Estime el 
índice de refracción y determine la incertidumbre en la es- 
timación. 


. La densidad de una roca será medida colocándola en un cilin- 


dro graduado parcialmente lleno de agua y después se mide 
el volumen de agua desplazado. La densidad D está dada 
por D = m/(V, — V¿), donde m es la masa de la roca, V, es 
el volumen inicial del agua y V, es el volumen del agua más 
la roca. Suponga que la masa de la roca es de 750 g, con in- 
certidumbre despreciable y que V, = 500.0 + 0.1 mL y V, 
= 813.2 + 0.1 mL. Estime la densidad de la roca y deter- 
mine la incertidumbre en la estimación. 


La conversión de cianuro de amonio en urea es una reacción 
de segundo orden. Esto significa que la concentración C de 
cianuro de amonio al tiempo 1 está dado por 1/€ = kt + 
1/C¿, donde Cy es la concentración inicial y que k es la ra- 
zÓón constante. Suponga que se sabe que la concentración 
inicial es de 0.1 mol/L exactamente. Suponga que el tiempo 
se puede medir con incertidumbre despreciable. 


a) Después de 45 minutos se mide la concentración de cia- 
nuro de amonio de 0.0811 + 0.0005 mol/L. Estime la 
razón constante k y determine la incertidumbre en la es- 
timación. 

b) Use el resultado del inciso a) para estimar el tiempo en el 
que la concentración de cianuro de amonio será de 0.0750 
mol/L y determine la incertidumbre en la estimación. 


Convierta las siguientes incertidumbres absolutas en incer- 
tidumbres relativas. 


12. 


13. 


14. 


15. 


16. 


17. 


18. 


a) 37.2 +0.1 

b) 8.040 + 0.003 
c) 936:.= 37 

d) 54.8 + 0.3 


Convierta las siguientes incertidumbres relativas en incerti- 
dumbres absolutas. 


a) 48.41 + 0.3% 
b) 991.7 + 0.6% 
c) 0.011 + 0.9% 
d) 7.86 + 1% 


La aceleración g debida a la gravedad se estima dejando 
caer un objeto y se mide el tiempo que le toma recorrer cier- 
ta distancia. Suponga que se conoce que la distancia s es 
exactamente 2.2 m. El tiempo que se mide es 1 = 0.67 + 
0.02 s. Estime g y determine la incertidumbre relativa en la 
estimación. (Observe que g = 2s/1.) 


Con referencia al ejercicio 4, suponga que T = 298.4 = 0.2 
K. Estime V y determine la incertidumbre relativa en la es- 
timación. 


Con referencia al ejercicio 5. 


a) Suponga que g = 9.80 m/s? exactamente y que L = 
0.855 + 0.005 m. Estime T y determine la incertidum- 
bre relativa en la estimación. 


b) Suponga que L = 0.855 m exactamente y que T = 1.856 
= 0.005 s. Estime g y determine la incertidumbre rela- 
tiva en la estimación. 


Con referencia al ejercicio 6, suponga que el radio del tubo 
es r =2.5 + 0.2 mm y que k = 7.57 mum con incertidum- 
bre despreciable. Estime h y determine la incertidumbre re- 
lativa en la estimación. 


Con referencia al ejercicio 7, estime F y determine la incer- 
tidumbre relativa en la estimación, suponga que g = 9.80 
m/s? exactamente y que 


a) d = 0.20 m y != 35.0 m, ambos con incertidumbre des- 
preciable y h = 4.51 + 0.03 m. 


b) h=4.51 m y != 35.0 m, ambos con incertidumbre des- 
preciable y d = 0.20 + 0.008 m. 


c) d=0.20 m y h = 4.51 m, ambos con incertidumbre des- 
preciable y ! = 35.00 + 0.4 m. 


Con referencia al ejercicio 8, suponga que el ángulo crítico 
se midió de 0.90 + 0.01 rad. Estime el índice de refracción 
y determine la incertidumbre relativa en la estimación. 
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19. Con referencia al ejercicio 9, suponga que la masa de la roca 
es 288.2 g con incertidumbre despreciable, el volumen ini- 
cial del agua en el cilindro es 400 + 0.1 mL y el volumen 
de agua más la roca es 516 + 0.2 mL. Estime la densidad de 
la roca y determine la incertidumbre relativa en la estimación. 


20. En una operación de una reacción química a cierta tempe- 
ratura, la concentración C de cierto reactivo al tiempo 1 es- 
tá dada por 1/C = kt + 1/Cy, donde C, es la concentración 
inicial y k es la razón constante. Suponga que se sabe que la 
concentración inicial es 0.04 mol/L exactamente. Suponga 
que el tiempo se mide con incertidumbre despreciable. 


a) Después de 30 s, la concentración C se mide de 0.0038 
+ 2.0 x 10* mol/L. Estime la razón constante k y de- 
termine la incertidumbre relativa en la estimación. 


b) Después de 50 s, la concentración C se mide de 0.0024 
+ 2.0 x 10* mol/L. Estime la razón constante k y de- 
termine la incertidumbre relativa en la estimación. 


c) Denote las estimaciones de la razón constante k en los 
incisos a) y b) por k, y %,, respectivamente. La media 
geométrica y/k,k, se usa como estimación de k. Deter- 
mine la respectiva incertidumbre en la estimación. 


3.4 Incertidumbres para funciones 


de varias mediciones 


Con frecuencia se necesita estimar una cantidad como una función de varias mediciones. Por 
ejemplo, se podría medir la masa m y el volumen V de una roca y calcular la densidad como 
D = m/V. En el ejemplo 3.15 se mostró cómo estimar la incertidumbre en D cuando una de 
las cantidades, en este caso V, fue medida con incertidumbre mientras que m se trató como 
una constante conocida. Sin embargo, en la práctica se podría necesitar estimar la incertidum- 
bre en D cuando tanto m como V se miden con incertidumbre. 

En esta sección se aprenderá cómo estimar la incertidumbre en una cantidad que es una 
función de varias mediciones inciertas independientes. La fórmula básica está dada aquí. 


S1X,,X,, ..., X, son mediciones independientes cuyas incertidumbres Ox, Ox, ..., 
CT x,, SON pequeñas y si U = U(X¡,X>, ..., X,,) es una función de X¡,X2, ...., X, en- 
tonces 
guy guy uN 
= 2 A e (3.12) 
OU (5) gx, + (5) O, ar 990 (7) Ox, 
En la práctica, se evalúan las derivadas parciales en el punto (X,,X>, ...., X,,). 


La ecuación (3.12) representa la fórmula de propagación de errores multivariada. Es im- 
portante observar que es válida sólo cuando las mediciones X,,X,, .. . , X, son independien- 
tes. Una deducción de la fórmula se proporciona al final de la sección. Como en el caso de 
una medición, las incertidumbres calculadas con la fórmula de la propagación de errores son 
frecuentemente aproximaciones. 

Las funciones no lineales de las mediciones son, en general, sesgadas (véase el análisis 
con respecto a funciones de una medición en la sección 3.3). Sin embargo, en tanto las medi- 
ciones X;, ..., X, no estén sesgadas y las incertidumbres 9, ..., Ox, sean todas pequeñas, 
el sesgamiento en U por lo regular será lo suficientemente pequeño para despreciarlo. Excep- 
ciones a esta regla son bastante inusuales, pueden ocurrir cuando algunas de las derivadas par- 
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ciales de segundo o más alto orden de U con respecto a X, son bastante grandes. Por supues- 
to, si una o más de las X,,..., X, son considerablemente sesgadas, entonces U podría tam- 
bién estarlo. Estas ideas se exploran aún más en el ejercicio 23 de los ejercicios adicionales 
al final de este capítulo. 

Ahora se presentan algunos ejemplos que ilustran el uso de la propagación de errores 
multivariada. 


Suponga que la masa de una roca se mide de m = 674.0 + 1.0 g y el volumen de la roca se 
mide de V = 261.0 = 0.1 mL. Estime la densidad de la roca y determine la incertidumbre en 
el cálculo en la estimación. 


Solución 
Sustituyendo m = 674.0 g y V = 261.0 mL, la estimación de la densidad D es 674.0/261.0 = 
2.582 g/mL. Puesto que D = m/V, las derivadas parciales de D son 


aD 1 " 
2 5200038 mE 

om V 

A 
O IS 


La incertidumbre en D es, por tanto, 


 Jpaay 2 (9D e 

PIN A) E O 
= y/((0.0038)*(1.0)? + (0.0099)2(0.1)? 
= 0.0040 g/mL 


La densidad de la roca es 2.582 + 0.004 g/mL. 


Uno de los beneficios de la fórmula de propagación de errores multivariada es que per- 
mite determinar las mediciones que contribuyen más a la incertidumbre en el resultado final. 
El ejemplo 3.19 ilustra esto último. 


La densidad de la roca en el ejemplo 3.18 se estimó otra vez con equipo diferente, con el fin 
de mejorar la precisión. ¿Qué mejoraría más la precisión del cálculo de la densidad: reducir 
la incertidumbre en el cálculo de la masa a 0.5 g o a 0.05 mL? 


Solución 
Del ejemplo 3.18, op = 1/(0.0038)%07 + (—0.0099)202. Se ha hecho una elección entre te- 


m 


ner 9, = 0.5 y y = 0.1, o tener dr, = 1.0 y y = 0.05. Los resultados de la primera elec- 
ción en dy = 0.002 g/mL, mientras que en la segunda elección en dy = 0.004 g/mL. Es me- 
jor reducir d,, a 0.5 g. 


3.4 Incertidumbres para funciones de varias mediciones 181 


Dos resistores con resistencias R, y R, están conectados en paralelo. La resistencia combina- 
da R está dada por R = (R¡RJMNR| + R>»). Si R¡ mide 100 + 100 y R,20 + 1 0, estime R y 
determine la incertidumbre en la estimación. 


Solución 
La estimación de R es (100120)/(100 + 20) = 16.67 Q. Para calcular dy, primero se calcu- 
lan las derivadas parciales de R: 


IR R 2 
s =( E ) 0.0778 


IR Ri +R> 
IR Pi Y 

= > = 0.694 
IR) Ri+R) 


Ahora rg, = 100 y dz, = 10. Por tanto, 


EN y (AR eS 
a ACTION ERE 


= y(0.0278)2(10) + (0.694)?(1)? 


= 0.75 Q 


La resistencia combinada es 16.67 + 0.75 (2. 


En el ejemplo 3.20, el resistor de 100 + 10 (2 se puede reemplazar con uno más costoso de 
100 = 1 O, ¿En cuánto se reduciría la incertidumbre en la resistencia combinada por esto úl- 
timo? ¿Es útil hacer el reemplazo? 


Solución 
Utilizando el método del ejemplo 3.20, la incertidumbre en la resistencia combinada R con el 
nuevo resistor sería 


v (0.0278) (1)? + (0.694)2(1)? = 0.69 2 


No hay mucha reducción de la incertidumbre de 0.75 (2 utilizando el resistor viejo. Casi to- 
da la incertidumbre en la resistencia combinada se debe a la incertidumbre en el resistor de 
20 O. En este contexto, la que se encuentra en el resistor de 100 (2 se puede despreciar para 
la mayoría de los propósitos prácticos. Hay muy poco beneficio en reemplazar este resistor. 


Observe que en el ejemplo 3.20, un componente (el resistor de 100 (2) tenía una incerti- 
dumbre más grande, tanto en términos absolutos como relativos del valor medido, que el otro. 
Aún así, el ejemplo 3.21 mostraba que la incertidumbre en la resistencia combinada estaba 
sólo ligeramente afectada por la incertidumbre en este componente. La lección es que no se 
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puede predecir el impacto de las incertidumbres en las mediciones individuales sobre la in- 
certidumbre en el cálculo final de las magnitudes de las incertidumbres solas. Se debe utili- 
zar la fórmula de propagación de errores. 


Incertidumbres para funciones de mediciones dependientes 


S1X¡, X>, ..., X, no son independientes, la incertidumbre en una función U = U(X|, X»,..., 
X,) se puede estimar si se conoce la covarianza de cada par (X;, X;). (La covarianza se anali- 
za en la sección 2.6.) En muchas situaciones, las covarianzas no se conocen. En estos casos, 
se puede hacer una estimación conservadora de la incertidumbre en U. Aquí se presenta este 
resultado. 


Si X¡, X2, . . . , X, son mediciones cuyas incertidumbres (dx, Fx,, . . . , Fx, SON Pe- 
queñas y si U = U(X,, X», ... , X,) es una función de (X,, X», ...., X;,), entonces una 
estimación conservadora de a, está dada por 


E JU e JU Eo JU (3.13) 
O, —|o — Ox, +:: O : 
E O a 

En la práctica se evalúan las derivadas parciales en el punto (X,, X», ...., X,). 


La desigualdad (3.13) es válida en casi todas las situaciones prácticas; en principio 
puede fallar si algunas de las segundas derivadas parciales de U son muy grandes. 


Con referencia al ejemplo 3.20, determine una estimación conservadora para la incertidum- 
bre en la resistencia R total si no se sabe si R, y R, son independientes. 


Solución 
Se tiene z, = 10 Q, 0, = 1 Q, OR/OR, = 0.0278, y OR/O0R, = 0.694. Por tanto, 


[ar JAR 

O ——— (O ———= 

EA ET 
= (0.0278)(10) + (0.694)(1) 
= 0.972 


La incertidumbre en la resistencia total se estimó conservadoramente de 0.97 (2. En el ejem- 
plo 3.20 se calculó la incertidumbre de 0.75 Q cuando R; y R, son independientes. 


Incertidumbres relativas para funciones de varias mediciones 


En la sección 3.3 se presentaron los métodos para calcular las incertidumbres relativas para 
funciones de una variable. Los métodos de cálculo de incertidumbres relativas para las fun- 
ciones de varias variables son similares. 


Ejemplo 
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Hay dos métodos para aproximar la incertidumbre relativa d ¿/U en una función U = 
U(X;,X>, 0009 Xn): 


1. Calcule a; utilizando la ecuación (3.12) y después divida entre U. 
2. Calcule In U y después use la ecuación (3.12) para encontrar dy que es igual 
ad A O. 


Ambos métodos funcionan en cada ejemplo, por tanto se puede utilizar cualquiera de los dos, 
el que sea más fácil, para un problema específico. Esta elección se determina generalmente 
por lo que sea más fácil para calcular las derivadas parciales de U o de In U. 


Dos lados perpendiculares de un rectángulo se miden de X = 2.0 + 0.1 cmy Y = 3.2 + 0.2 
cm. Determine la incertidumbre relativa en el área A = XY. 


Solución 
La incertidumbre relativa se calcula fácilmente encontrando la incertidumbre absoluta en ln 
A = In X + In Y. Se inicia calculando las derivadas parciales de In A: 


9InA 1 n” 
O. AS Y 


9 In A 1 
=520:31 
Y 


Se ha dado que dy = 0.1 y dy = 0.2. La incertidumbre relativa en A es 


OA 9 In Ay? 2 (PMA 2 
— =OmA = O a 
Ls an) 9Y a 


— y/(0.50)%(0.1)? 03002) 
= 0.080 


La incertidumbre relativa en A es 0.080 u 8%. El área del rectángulo es 6.4 cm? + 8%. 


Una máquina de Atwood consta de dos masas X y Y (X > Y) fijas en los extremos de una cuer- 
da ligera que pasa por una polea ligera sin fricción. Cuando se sueltan las masas, la más gran- 
de X se acelera hacia abajo con una aceleración 


A =Y 
x+Y 


a=g8g 


Suponga que X y Y se miden como X = 100 + 1 g y Y = 50 2 1 g. Suponga que g, la acele- 
ración debida a la gravedad, es conocida con incertidumbre despreciable. Encuentre la incer- 
tidumbre relativa en la aceleración a. 
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Solución 

La incertidumbre relativa en a es igual a la incertidumbre absoluta en ln a = In g + In(X — 
Y) — In(X + Y). Tratamos a g como una constante, ya que su incertidumbre es despreciable. 
Las derivadas parciales son 


dIna 1 1 

= = 0.0133 
IX X-Y X+Y 
dIna 1 1 
. = = 0.0267 
oY X-Y X+Y 


Las incertidumbres en X y Y son dx = dy = 1. La incertidumbre relativa en a es 


Oa dina y? 2, dInay? , 
" = Olna = IX Ox 9Y Oy 


= y/(0.0133)2(1? + (-0.0267)2(1)? 


= 0.030 


La incertidumbre relativa en a es 0.030, o 39%. Observe que este valor no depende de g. 


Deducción de la fórmula de propagación de errores multivariada 


Se deduce la fórmula de propagación de errores para una función no lineal U de una va- 
riable aleatoria X al aproximar a la función con una función lineal multivariada (es decir, 
al linealizar el problema) y después utilizando los métodos de la sección 3.2. Para encon- 
trar una aproximación lineal para U se usa una aproximación con una serie de Taylor de 
primer orden. Sea U = U(X,,X,, ... , X,) una función cuyas derivadas parciales existen. 
Sea (11,7, - - - > 1.) un punto. Entonces si X,,X,, ... , X, son cercanas a ja, -- > Pp 
respectivamente, la linealización de U es 


JU 
U(X1, X>, SiO Ap) a U(us, m2, LO) -S a A > pu) 
1 


Sh de (X ) peso E dd (X ) 
EA 2 pa 7 n Mn 
Cada derivada parcial se evalúa en el punto (1;, a, --. > My). 
SiX,, X>, ... , X, son mediciones independientes, la aproximación lineal conduce a 


un método para aproximar la incertidumbre en U, dadas las incertidumbres en X, X»,...., 
X,, La deducción es similar al caso de una variable que se presentó al final de la sección 


3.3. Sean p;, Ma, - - - , y las medias de X;, X,, ..., X,, respectivamente. Entonces para 
cualesquiera mediciones razonablemente precisas, X,, X,, ..., X, estarán bastante cerca 
de u;, MU», - - - > e, para que la linealización sea válida. 


Se puede reescribir la ecuación (3.14) como 
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a 3, 9 9U 
5 M1,HM2,---, Un o Na E (6.15) 
=F gia X1+ ga X2+ =F gn X 
O A as 


Las cantidades 9U/9dX,, JU/0X,, ... 
en el punto (1, Ma, --. 


., 0U/9X,, son todas constantes, puesto que se evalúan 
, P). Por tanto, la cantidad 


JU JU JU 


, Un) A ma IX, 


U (pi, Ma, ... Un 


también es constante. En este contexto, de la ecuación (2.40) (de la sección 2.5) y de la 


ecuación (3.4) (de la sección 3.2) se tiene que 


Ejercicios de la sección 3.4 


1. 


Determine la incertidumbre en U, suponiendo que X = 10.0 
+05, Y=5x0.1y 

a) U=XP 

bU=Xx+Y 

o) U=(X+ YN 


Con referencia al ejercicio 8 de la sección 3.2, suponga que 
T= 30.0 + 0.1 Pa, h= 10.0 + 0.2 mm y 4 = 1.49 Pa-s con 
incertidumbre despreciable. 


a) Estime V y determine la incertidumbre en la estimación. 


b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en V: reducir la incertidumbre en Ta 0.01 Pao 
reducir la incertidumbre en h a 0.1 mm? 


Entra aire en un compresor con una presión P, y sale con 
una presión P,, la presión intermedia está dada por 
P3 = y P¡P,. Suponga que P, = 10.1 + 0.3 MPa y P, = 
20.1 + 0.4 MPa. 


a) Estime Pz y determine la incertidumbre en la estima- 
ción. 

b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en Py: reducir la incertidumbre en P; a 0.2 MPa 
o reducir la incertidumbre en P, a 0.2 MPa? 


9U ode E ES 
==>" O + (04 
A A 


. Una manera de medir el contenido de agua en una tierra es 


pesarla antes y después de secarla en un horno. El conteni- 
do de agua es W = (M, — M,)/M,, donde M, es la masa an- 
tes de secarla y M, después de secarla. Suponiendo que M, 
= 1.32 + 0.01 kg y M, = 1.04 + 0.01 kg. 


a) Estime W y determine la incertidumbre en la estima- 
ción. 
b) ¿Qué proveería una reducción más grande en la incerti- 


dumbre en W: reducir la incertidumbre en M, a 0.005 kg 
o reducirla en M, en 0.005 kg? 


+ La ecuación de lentes dice que si un objeto se coloca a una 


distancia p de una lente y se forma una imagen a una dis- 
tancia q de aquélla, entonces la longitud focal f satisface la 
ecuación 1/f= 1/p + 1/q. Suponga p = 2.3 + 0.2 cm y q 
=3 + 0.2 cm. 


a) Calcule f y determine la incertidumbre. 


b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en f: reducir la incertidumbre en p a0.1 cm o en 
qa0.1 cm? 


+ La presión P, temperatura 7 y volumen V de una mol de gas 


ideal está relacionada con la ecuación PV = 8.31 T, cuando 
P se mide en kilopascales, T se mide en grados Kelvin y V 
se mide en litros. 
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a) Suponga que P = 242,52 + 0.03 kPa y V = 10.103 + 
0.002 L. Estime 7 y determine la incertidumbre en la es- 
timación. 

b) Suponga que P = 242,52 + 0.03 kPa y T = 290.11 + 
0.02 K. Estime V y determine la incertidumbre en la es- 
timación. 

c) Suponga que V = 10.103 + 0.002 L y T = 290.11 + 
0.02 K. Estime P y determine la incertidumbre en la es- 
timación. 


+ Con referencia al ejercicio 7 en la sección 3.3, suponga que 
g = 9.80 m/s? exactamente, d = 0.18 + 0.02 m, h = 4.86 
= 0.06 m y 1 = 32.04 = 0.01 m. Estime F y determine la 
incertidumbre en la estimación. 


. En el artículo “Temperature-Dependent Optical Constants 
of Water Ice in the Near Infrared: New Results and Critical 
Review of the Available Measurements” (B. Rajaram, D. 
Glandorf y colaboradores, en Applied Optics, 2001:4449- 
4462), el índice imaginario de refracción del agua congela- 
da se presenta para diferentes frecuencias y temperaturas. A 
frecuencia de 372.1 cm”* y temperatura de 166 K, el índi- 
ce se estima de 0.00116. A la misma frecuencia y a tempe- 
ratura de 196 K, el índice se estima de 0.00129. La 
incertidumbre se reporta de 10”* para cada uno de estos ín- 
dices. La razón de los índices se estima de 0.00116/0.00129 
= 0.899. Determine la incertidumbre en esta razón. 


. Con referencia al ejercicio 10 de la sección 3.2, suponga 
que Ty = 50 + 1 MPa, w = 1.2 + 0.1 mm y k = 0.29 + 
0.05 mm”. 


a) Estime T y determine la incertidumbre en la estimación. 


b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en T: reducir la incertidumbre en 7, a 0.1 MPa, 
en wa 0.01 mm, oen k a 0.025 mm !? 


c) Un nuevo proceso algo más costoso permitiría que tan- 
to 7, como w sean medidos con incertidumbre despre- 
ciable. ¿Vale la pena implementar el proceso? Explique. 


10. De acuerdo con la ley de Snell, el ángulo de refracción 6, 


de un rayo de luz que viaja en un medio cuyo índice de re- 
fracción n está relacionado con el ángulo de incidencia 0, 
de un rayo que está viajando en el vacío por medio de la 
ecuación sen0, = n sen6,. Suponga que 6, = 0.3672 + 
0.005 rad y 6, = 0.2943 + 0.004 rad. Estime n y determi- 
ne la incertidumbre en la estimación. 


11. Arqueólogos que estudian los métodos de almacenamiento 


de carne empleados en el territorio Nunamiut, en Alaska, 
han desarrollado un índice de secado de carne. Lo que sigue 


12. 


13. 


14. 


es una versión ligeramente simplificada del índice en el ar- 
tículo “A Zooarchaeological Signature for Meat Storage: 
Rethinking the Drying Utility Index” (T. Friesen, en Ameri- 
can Antiquity, 2001:315-331). Sea m el peso de carne, b el 
peso del hueso y g el peso neto de alguna parte del caribú. 
El índice de secado de carne y está dado por y = mb/g. Su- 
ponga que para una costilla especial del caribú, se hicieron 
las siguientes mediciones (en gramos): g = 3 867.4 + 0.3, 
b=1037.0 = 0.2, m = 2 650.4 + 0.1. 


a) Estime y y determine la incertidumbre en la estimación. 


b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en y: reducir la incertidumbre en ga 0.1 g,enb 
a0.1 g,oenma 0? 


La resistencia R (en ohms) de un conductor cilíndrico está 
dado por R = kl/d?, donde 1 es la longitud, d es el diámetro 
y k es una constante de proporcionalidad. Suponga que / = 
14 0.1cmyd=44= 0.1 cm. 


a) Estime R y determine la incertidumbre en la estimación. 
Su respuesta estará en relación con la constante de pro- 
porcionalidad k. 


b) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en R: reducir la incertidumbre en / a 0.05 cm o 
en d a 0.05 cm? 


Un cable cilíndrico de radio R se alarga cuando se somete a 
una fuerza de tensión F. Sea L, la longitud inicial del cable 
y L; la longitud final. El módulo de Young para el material 
está dado por 


e FL, 
— ARA(L¡—Lo) 


Suponga que F = 800 + 1N,R =0.75 + 0.1 mm, £y = 25 
+ 0.1 mm y £; = 30 + 0.1 mm. 


a) Estime Y y determine la incertidumbre en la estimación. 


b) De las incertidumbres en F, R, Ly y L;, sólo una tiene 
un efecto no despreciable en la incertidumbre en Y. 
¿Cuál es? 


De acuerdo con la ley del enfriamiento de Newton, el tiem- 
po t necesario para que un objeto con una temperatura ini- 
cial 7, se enfríe a la temperatura 7 con una temperatura del 
ambiente 7,, está dada por 


pos n7-7) In(7-7,) 
k k 


donde k es una constante. Suponga que para cierto tipo de 
recipiente, k = 0.025 min”?. Sea £ el número de minutos ne- 


3.4 


cesario para enfriar el recipiente a 50%. Suponga que 7, = 
70.1 + 0.2%F y T, = 35.7 + 0.19F. Estime f y determine la 
incertidumbre en la estimación. 


15. Con referencia al ejercicio 14, en un experimento para de- 
terminar el valor de k, la temperatura T al tiempo t = 10 min 
se mide de T = 54.1 + 0.2%. Suponga que 7, = 70.1 + 
0.29F y T, = 35.7 + 0.1%F. Estime k y determine la incerti- 
dumbre en la estimación. 


16. El desplazamiento vertical v de una grieta infiltrada con fi- 
bra de concreto en un miembro a una tensión de corte máxi- 
ma está dada por v = a + bw, donde w es el ancho de la 
grieta y se estima a y b a partir de los datos como a = 2.5 + 
0.1 mm y b = 0.05 + 0.01. Suponga que w = 1.2 + 0.1 mm. 


a) Estime v y determine la incertidumbre en la estimación. 


b) De las incertidumbres en w, a y b, sólo una tiene un efec- 
to en la incertidumbre no despreciable en v. ¿Cuál es? 


17. La forma de una bacteria se puede aproximar con un cilin- 
dro de radio r y altura h terminado en cada extremo con un 
hemisferio. El volumen y el área superficial de la bacteria 
están dados por 


V =xr(h + 4r/3) 
S = 21rr(h + 2r) 


Se sabe que la razón R con la que se absorbe una sustancia 
química en la bacteria es R = c (s/V), donde c es una cons- 
tante de proporcionalidad. Suponga que para cierta bacteria, 
r=09*=01umy/A4=1.7 0.1 um. 


a) ¿Los valores calculados de $ y V son independientes? 
Explique. 

b) Suponiendo que las mediciones de r y h sean indepen- 
dientes, estime R y determine la incertidumbre en la es- 
timación. Su respuesta estará en relación con c. 


18. Estime U y determine la incertidumbre respectiva en la es- 
timación, suponiendo que X =5 + 0,2, Y =10= 0.5 y 


a) U=XYVY 
b) U=2Y/VWX 
c) U=xXx?*4Y? 


19. Con referencia al ejercicio 8 en la sección 3.2, suponga que 
T=35.2 + 0.1 Pa, h= 12.0 + 0.3 mm y 4 = 1.49 Pa-s con 
incertidumbre despreciable. Estime V y determine la incer- 
tidumbre relativa en la estimación. 
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20). Con referencia al ejercicio 3, suponga que P, = 15.3 + 0,2 
MPa y P), = 25.8 + 0.1 MPa. Estime Py y determine la in- 
certidumbre relativa en la estimación. 


21. Con referencia al ejercicio 5, suponga que p = 4.3 + 0.1 
em y q = 2.1 + 0.2 cm. Estime f y determine la incertidum- 
bre relativa en la estimación. 


22. Con referencia al ejercicio 6. 


a) Suponga que P = 224.51 + 0.04 kPa y V = 11.237 + 
0.002 L. Estime T y determine la incertidumbre relativa 
en la estimación. 


b) Suponga que P = 224.51 + 0.04 kPa y T = 289.33 + 
0.02 K. Estime V y determine la incertidumbre relativa 
en la estimación. 


c) Suponga que V = 11.203 + 0.002 L y T = 289.33 + 
0.02 K. Estime P y determine la incertidumbre relativa 
en la estimación. 


23.Con referencia al ejercicio 10, estime n y determine la 
incertidumbre relativa en la estimación, de las siguientes 
mediciones: 0, = 0.216 + 0.003 rad y 0, = 0.456 + 
0.005 rad. 


24. Con referencia al ejercicio 12, suponga que l = 10 cm + 
0.5% y d = 10.4 cm = 0.5%. 


a) Haga una estimación de R y determine la incertidumbre 
relativa en la estimación. ¿La incertidumbre relativa de- 
pende de k? 


b) Suponga que ya sea l O d se puede volver a medir con 
una incertidumbre relativa de 0.2%. ¿Cuál se debe vol- 
ver a medir para dar una mejoría más grande en la incer- 
tidumbre relativa de la resistencia? 


25. Con referencia al ejercicio 13, suponga que F=750+1N, 
R = 0.65 = 0.09 mm, £y = 23.7 + 0.2 mm y L, =27.7 += 
0.2 mm. Estime Y y determine la incertidumbre relativa en 
la estimación. 


26. Con referencia al ejercicio 14, suponga que T, = 73.1 + 
0.19%, T, = 37.5 + 0.2%F, k = 0.032 min”! con incertidum- 
bre despreciable y 7 = 50%F exactamente. Estime 1 y deter- 
mine la incertidumbre relativa en la estimación. 


27. Con referencia al ejercicio 17, suponga que para cierta bac- 
teriar = 0.8 = 0.1 umyh=1.9 0.1 um. 


a) Estime S y determine la incertidumbre relativa en la es- 
timación. 
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b) Estime V y determine la incertidumbre relativa en la es- 
timación. 

c) Estime R y determine la incertidumbre relativa en la es- 
timación. 


d) ¿La incertidumbre relativa en R depende de c? 


Ejercicios adicionales del capítulo 3 


1. Suponga que X, Y y Z son mediciones independientes con X 


=25+1,Y/=5x0.3yZ= 3.5 + 0.2, Determine las in- 
certidumbres en cada una de las cantidades siguientes: 


a) X+YZ 
by X/Y-2Z) 
Cc) XVY + e? 
d) XIn(Y?+Z) 


. Suponga que X, Y y Z son mediciones independientes y que 
la incertidumbre relativa en X es 5%, en Y es 10% y en Zes 
15%. Determine la incertidumbre relativa en cada una de las 
cantidades siguientes: 


a) XY/Z 
b) XUL ZII 
e) X*VZ]Y 


. Un artículo se forma colocando dos componentes uno tras 
otro. La longitud de cada componente será medido. 


a) Si la incertidumbre en la medición de la longitud de ca- 
da componente es 0.1 mm, ¿cuál es la incertidumbre en 
la longitud combinada de los dos componentes? 


b) Si se desea estimar la longitud del artículo con una in- 
certidumbre de 0.05 mm, ¿cuál debe ser la incertidum- 
bre en la medición de cada componente? Suponga que 
las incertidumbres en las dos mediciones son iguales. 


. Para algunas mutaciones genéticas, se piensa que la fre- 
cuencia del gen mutante en los hombres aumenta lineal- 
mente con la edad. Si m, es la frecuencia a la edad 1, y m>, 
es la frecuencia a la edad £,, entonces la razón anual de au- 
mento se estima con r = (m, — m,(t, — £,). En un análisis 
de reacciones en la cadena de la polimerasa, la frecuencia en 
hombres de 20 años se calculó de 17.7 + 1.7 por qg de ADN 
y la frecuencia en hombres de 40 años se calculó de 35.9 + 
5.8 por ug de ADN. Suponga que la edad se mide con in- 
certidumbre despreciable. 


28. Sean X y Y mediciones independientes y sean c, n y m cons- 


tantes. Demuestre que la incertidumbre relativa en U = 
xy" es 


a) Estime la razón anual del aumento y determine la incer- 
tidumbre en la estimación. 


b) Determine la incertidumbre relativa en la estimación de 
la razón del aumento. 


5. La ecuación de Darcy-Weisbach establece que la potencia 


de la capacidad de generación en un sistema hidroeléctrico 
que se pierde debido a la pérdida de carga está dada por 
P = nyQH, donde y es la eficiencia de la turbina, y la gra- 
vedad específica del agua, O la razón de flujo y H la pérdi- 
da de carga. Suponga que y = 0.85 + 0.02, H = 3.71 + 
0.10 m, Q = 60 + 1 mÍ/s y y = 9 800 N/m' con incertidum- 
bre despreciable. 


a) Estime la pérdida de potencia (las unidades serán watts) 
y determine la incertidumbre en la estimación. 


b) Determine la incertidumbre relativa en la estimación en 
la pérdida de potencia. 


c) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en P: reducir la incertidumbre en 7 a 0.01, en A 
a0.05 o en O a0.5? 


6. Sean A y B dos variantes (alelos) del ADN en cierta ubica- 


ción en el genoma. Sea p la proporción de alelos en una po- 
blación que son del tipo A y q del tipo B. El principio de 
equilibrio Hardy-Weinberg establece que la proporción Paz 
de organismos que son del tipo AB es igual a pg. En una vi- 
sión general de población de una especie especial, la pro- 
porción de alelos de tipo A se estima de 0.360 + 0.048 y la 
del tipo B se estima independientemente de 0.250 + 0.043. 


a) Estime la proporción de organismos que son de tipo AB 
y determine la incertidumbre en la estimación. 
b) Determine la incertidumbre relativa en la proporción. 


c) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en la proporción: reducir la incertidumbre en la 
proporción del tipo A a 0.02 o del tipo B a 0.02? 


ie 


2 


La capacidad calorífica de un calorímetro se sabe que es de 
4 kJ/*C, con incertidumbre despreciable. El número de ca- 
lorías alimentarias (kilocalorías) por gramo de una sustan- 
cia está dado por C = cH(AT)/m, donde C es el número de 
calorías alimentarias, A la capacidad calorífica del calorí- 
metro, AT el aumento en la temperatura en *C causado por 
quemar la sustancia en el calorímetro, m la masa de la sus- 
tancia en gramos y c = 0.2390 cal/kJ es el factor de conver- 
sión de kilo joules a calorías alimentarias. Una cantidad de 
mayonesa con masa 0.40 = 0.01 g es quemada en un calo- 
rímetro. El aumento de la temperatura es 2.75 + 0.02*C. 


a) Estime el número de calorías alimentarias por gramo de 
mayonesa y determine la incertidumbre en la estimación. 


b) Determine la incertidumbre relativa en el número esti- 
mado de calorías alimentarias. 


Cc) ¿Qué proveería una reducción más grande en la incerti- 
dumbre en C: reducir la incertidumbre en la masa a 
0.005 g oen AT a 0.01*C? 


Se hicieron 22 mediciones independientes de la dureza de 
una soldadura, utilizando la balanza A de Rockwell. El pro- 
medio fue de 65.52 y la desviación estándar de 0.63. 


a) Estime la dureza de esta soldadura y determine la incer- 
tidumbre en la estimación. 


b) En una sola medición hecha de la dureza de otra solda- 
dura del mismo metal base, la medición es de 61.3. 
¿Cuál es la incertidumbre en esta medición? 


El artículo “Insights into Present-Day Crustal Motion in the 
Central Mediterranean Area from GPS Surveys” (M. Anzi- 
dei, P. Baldi y colaboradores, en Geophysical Journal Inter- 
national, 2001:98-100) informa que los componentes de la 
velocidad de la corteza terrestre en Zimmerwald, Suiza, son 
22.10 + 0.34 mm/año en dirección norte y 14.3 + 0.32 
mm/año en dirección este. 


a) Estime la velocidad de la corteza terrestre y determine la 
incertidumbre en la estimación. 


b) Utilizando la respuesta del inciso (a), estime el número 
de años que le tomará a la corteza desplazarse 100 mm 
y determine la incertidumbre en la estimación. 


10. Si dos gases tienen masas molares M, y Mo, la ley de Gra- 


ham establece que la razón R de sus tasas de efusión a tra- 
vés de una pequeña abertura está dada por R = //M,/M». 
La tasa de efusión de un gas desconocido que pasa a través 
de una pequeña abertura se midió de 1.66 + 0.03 veces más 
grande que la tasa de efusión del dióxido de carbono. La 
masa molar de éste se puede tomar igual a 44 g/mol con in- 
certidumbre despreciable. 
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a) Estime la masa molar del gas desconocido y determine 
la incertidumbre en la estimación. 


b) Determine la incertidumbre relativa en la estimación de 
la masa molar. 


11. Un artículo laminado está hecho de seis capas. Las dos ex- 


teriores tienen un espesor de 1.25 + 0.10 mm y las cuatro 
interiores tienen un espesor de 0.80 + 0.05 mm. Suponga 
que los espesores de las capas son independientes. Estime 
el espesor del artículo y determine la incertidumbre en la es- 
timación. 


12. El artículo “Effect of Varying Solids Concentration and Or- 


ganic Loading on the Performance of Temperature Phased 
Anaerobic Digestion Process” (S. Vanderburgh y T. Ellis, en 
Water Environment Research, 2002:142-148) analiza experi- 
mentos para determinar el efecto de la concentración de sóli- 
dos en el desarrollo de los métodos de tratamiento para lodos 
de agua residuales. En el primer experimento, la concentra- 
ción de sólidos (en g/L) fue 43.94 + 1.18. En el segundo, 
que era independiente del primero, la concentración era 
48.66 + 1.76. Estime la diferencia en la concentración en- 
tre dos experimentos y determine la incertidumbre en la es- 
timación. 


13. En el artículo “Measurements of the Thermal Conductivity 


and Thermal Diffusivity of Polymer Melts with the Short- 
Hot-Wire Method” (X. Zhang, W. Hendro y colaboradores, 
en International Journal of Thermophysics, 2002:1077- 
1090), la difusión térmica de un líquido medido por el mé- 
todo transitorio del alambre corto caliente está dado por 


VIA 
d= 
rmla 


donde A es la difusión térmica; V y / el voltaje y la corrien- 
te aplicada al alambre caliente, respectivamente; / la longi- 
tud del alambre; y A y a las cantidades que implican la 
temperatura, cuyos valores se estiman por separado. En es- 
te artículo, las incertidumbres relativas de estas cantidades 
están dadas de la siguiente manera: V, 0.01%; 1, 0.01%; 1, 
1%; A, 0.1%; a, 1%. 


a) Encuentre la incertidumbre relativa en 4. 


b) ¿Qué reduciría más la incertidumbre relativa: disminuir 
la incertidumbre relativa en / a 0.5 % o reducir las incer- 
tidumbres relativas en V, [, y A para cada una a 0? 


14. Un cable está formado por varios alambres paralelos. La 


fuerza del cable se puede estimar de las intensidades de los 
alambres por separado por cualesquiera de los dos métodos. 
En el método del cable dúctil, su fuerza se estima como la 
suma de las intensidades de los alambres. En el método de 
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cable quebradizo, su fuerza se estima como la fuerza del 
alambre más débil multiplicada por el número de alambres. 
Un cable especial está compuesto de 12 alambres. Cuatro 
de ellos tienen una fuerza de 6 000 += 20 lb, cuatro más de 
5 700 + 30 lb y otros cuatro de 6 200 + 40 lb. 


a) Estime la fuerza del cable y determine la incertidumbre 
en la estimación, utilizando el método de cable dúctil. 


b) Estime la fuerza del cable y determine la incertidumbre 
en la estimación, utilizando el método de cable quebra- 
dizo. 


15. Con referencia al ejercicio 14, un cable está compuesto de 


16 alambres. La fuerza de cada uno es 5 000 + 20 lb. 


a) ¿La fuerza estimada del cable será la misma con el mé- 
todo de cable dúctil como con el método de cable que- 
bradizo? 


b) ¿La incertidumbre en la fuerza estimada del cable será la 
misma con el método de cable dúctil como con el méto- 
do de cable quebradizo? Explique por qué sí o por qué no. 


16. La media de la producción del proceso A se estima de 80 + 


5, donde las unidades son el porcentaje de un máximo teó- 
rico. La media de la producción del proceso B se estima de 
90 = 3. El aumento relativo obtenido del proceso B se esti- 
ma de (90 — 80)/80 = 0.125. Determine la incertidumbre 
en la estimación. 


17.La razón de flujo del agua por un tubo cilíndrico está dado 


por Q = 1*v, donde r es el radio del tubo y v es la veloci- 
dad de flujo. 


a) Suponga que r = 3.00 = 0.03 y v = 4 = 0.2 m/s. Esti- 
me O y determine la incertidumbre en la estimación. 


b) Suponga que r = 4.00 + 0.04 m y v=2 + 0.1 m/s. Es- 
time O y determine la incertidumbre en la estimación. 


Cc) Si r y v no se han medido, pero se sabe que la incerti- 
dumbre relativa en r es 1% y que la incertidumbre relati- 
va en v es 5%, ¿es posible calcular la incertidumbre 
relativa en O? Si es así, calcule la incertidumbre relativa. 
Si no, explique qué información adicional se necesita. 


18.La conversión del ciclobutano (C¿Hy) a etileno (C,H,) es 


una reacción de primer orden. Esto significa que la concen- 
tración de ciclobutano al tiempo 1 está dada por In C = In Cy 
— kt, donde C es la concentración al tiempo 1, Cy es la con- 
centración inicial, f es el tiempo desde que la reacción em- 
pezó y k es la razón constante. Suponga que C, = 0.2 mol/L 
con incertidumbre despreciable. Después de 300 segundos 
a temperatura constante, la concentración se mide de C = 


0.174 + 0.005 mol/L. Suponga que el tiempo se puede me- 
dir con incertidumbre despreciable. 


a) Estime la razón constante k y determine la incertidum- 


] PE ¿ e al 
bre en la estimación. Las unidades de k serán s ”. 


b) Determine la incertidumbre relativa en k. 


c) La vida media 1, de la reacción es el tiempo que se ne- 
cesita para que la concentración se reduzca a la mitad de 
su valor inicial. La vida media está relacionada con la 
razón constante por t;y, = (In 2)/k. Utilizando el resulta- 
do que encontró en el inciso (a), determine la incerti- 
dumbre en la vida media. 


d) Determine la incertidumbre en la vida media. 


19.La descomposición del dióxido de nitrógeno (NO,) en mo- 


nóxido de nitrógeno (NO) y oxígeno es una reacción de se- 
gundo orden. Esto significa que la concentración C de NO, 
al tiempo 1 está dada por 1/C = kt + 1/C¿, dónde C, es la 
concentración inicial y k es la tasa constante. Suponga que 
se sabe que la concentración inicial es exactamente de 0.03 
mol/L. Suponga que el tiempo se puede medir con incerti- 
dumbre despreciable. 


a) Después de 40 s, la concentración C se mide de 0.0023 
+ 2.0 x 10* mol/L. Estime la tasa constante k y deter- 
mine la incertidumbre en la estimación. 


b) Después de 50 s, la concentración C se mide de 0.0018 
= 2.0 x 10* mol/L. Estime la tasa constante k y deter- 
mine la incertidumbre en la estimación. 


Cc) Denote los estimadores de la razón constante k en los in- 
cisos a) y b) por %, y k,, respectivamente. El promedio 
(de, + ho)/2 se usa como un estimador aproximado de k. 
Determine la incertidumbre en esta estimación. 


d) Determine el valor de c para que el promedio pondera- 
do ck, + (1 — c)%, tenga la incertidumbre más pequeña. 


20. Dos estudiantes quieren medir la aceleración a de un carro 


que baja rodando por un plano inclinado. El carro arranca 
desde el reposo y viaja una distancia s hacia abajo del pla- 
no. El primer estudiante estima la aceleración al medir la 
velocidad instantánea v en cuanto el carro ha viajado s me- 
tros y usa la fórmula a = v?/2s. El segundo estima la acele- 
ración midiendo el tiempo, en segundos, que le toma al 
carro viajar los s metros y usa la fórmula a = 2s/1?. Supon- 
ga que s = 1 m y que tiene una incertidumbre despreciable 
en s. Suponga que v = 3.2 + 0.1 m/s y que 1 = 0.63 + 0.01 
s. Suponga que las mediciones de v y £ son independientes. 


a) Calcule la aceleración utilizando el método del primer 
estudiante. Llame a esta estimación a,. Determine la in- 
certidumbre a;. 


b) Determine la aceleración utilizando el método del se- 
gundo estudiante. Llame a esta estimación a,. Determi- 
ne la incertidumbre a». 


c) Encuentre el promedio ponderado de a, y a, que tiene la 
incertidumbre más pequeña. Encuentre la incertidumbre 
de este promedio ponderado. 


21. Una pista tiene la forma de un cuadrado limitado con dos la- 


dos opuestos por semicírculos. La longitud de un lado del 
cuadrado se mide de 181.2 + 0.1 m. 


a) Determine el área del cuadrado y su incertidumbre. 


b) Determine el área de uno de los semicírculos y su incer- 
tidumbre. 


c) Sea S el área del cuadrado como se calculó en el inciso 
a) y sea C el área de uno de los semicírculos como se 
calcularon en el inciso b). El área encerrada por la pista 
es A = S + 2C. Alguien calcula la incertidumbre en A 
como 04 = y/o; + 402. ¿es esto correcto? Si es así, 
explique por qué. Si no, calcule la incertidumbre en A 
correctamente. 


22. Si X es una medición no sesgada de un valor real uy y U(X) 


es una función no lineal de X, entonces en la mayoría de los 
casos U es un estimador sesgado del valor real U(ux). En la 
mayoría de los casos se ignora el sesgo. Sin embargo, si es 
importante reducir el sesgo, un estimador con corrección de 
sesgo es U(X) — MIU. En general el estimador 
con corrección de sesgo es sesgado, pero tiene sesgo menor 
que U(X). 
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Suponga que el radio de un círculo se mide de r = 3.0 
= 0.1 cm. 


a) Estime el área A y determine la incertidumbre de la es- 
timación, sin corrección de sesgo. 


b) Calcule el estimador con corrección de sesgo de A. 


c) Compare la diferencia entre el estimador con corrección 
de sesgo y el estimador sin corrección de sesgo de la in- 
certidumbre en el estimador sin corrección de sesgo. 
¿Es importante la corrección por sesgo en este caso? Ex- 
plique. 


23.Si X,, X>,..., X, son mediciones independientes no sesga- 


das de los valores reales ¡1;, ua, . . , Mn Y U(X], X, ..., X,,) 
es una función no lineal de X,, X», ...., X,, entonces, en ge- 
neral, U(X,, X,, .. ., X,) es un estimador sesgado del valor 
real U(u;, ua, - - - , M,). Un estimador con corrección de ses- 
go es U(X;, X>,..., X,) — (1/2) ) 3,_,(0U/9X 07 . 
Cuando entra aire en un compresor a presión P, y sale a 
presión P,, la presión intermedia está dada por P¿ = y P; P,. 
Suponga que P, = 8.1 + 0.1 MPa y P, = 15.4 + 0.2 MPa. 


a) Estime Pz y determine la incertidumbre en la estima- 
ción, sin corrección de sesgo. 

b) Estime P, con corrección de sesgo. 

c) Compare la diferencia entre los estimadores con y sin 
corrección de sesgo con la incertidumbre en el estima- 


dor sin corrección de sesgo. ¿Es importante, en este ca- 
so, la corrección por sesgo? Explique. 


Capítulo 


Distribuciones 
comúnmente usadas 


Introducción 


La inferencia estadística consiste en extraer una muestra de una población y analizar sus datos 
con el propósito de aprender acerca de ello. Muchas veces se tiene un conocimiento superfi- 
cial de la función de masa de probabilidad o de la función de densidad de probabilidad de la 
población. En estos casos la función de masa o de densidad de probabilidad se aproxima me- 
diante una de muchas familias comunes de curvas o funciones. En este capítulo se describen 
algunas de estas funciones comunes y las condiciones en que es apropiado utilizar cada una. 


4.1 Distribución de Bernoulli 
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Imagine un experimento que tenga dos resultados. Al primero se le llama “éxito” y al otro “fra- 
caso”. La probabilidad de éxito se denota por p. Por consecuencia, la probabilidad de fracaso 
es 1 — p. Lo anterior representa un ensayo de Bernoulli con probabilidad de éxito p. El más 
sencillo de este tipo es el lanzamiento al aire de una moneda. Los posibles resultados son “ca- 
ra” o “cruz”. Si “cara” se define como éxito, entonces p constituye esa probabilidad. En una 
moneda, p = 1/2. Otro ejemplo de ese ensayo es la selección de un componente a partir de 
una población de componentes, pero algunos están defectuosos. Si se define como “éxito” a uno 
de éstos, entonces p significa la proporción de componentes defectuosos en la población. 
Para cualquier ensayo de Bernoulli se define a la variable aleatoria X así: Si el experl- 


mento propicia “éxito”, entonces X = 1. De lo contrario, X = 0. De ahí que X sea una varia- 
ble aleatoria discreta, con función de masa de probabilidad p(x) definida por 


p(0) =P(X=0)=1-p 
pd) =PX=1) =p 
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px) = O para cualquier valor de x diferente a0 o 1 
Se dice que la variable aleatoria X sigue una distribución de Bernoulli con parámetro p. La 
notación es X — Bernoulli(p). La figura 4.1 muestra histogramas de probabilidad para las fun- 


ciones de masa de probabilidad de Bernoulli(0.5) y de Bernoulli(0.8). 


lo E 


0.8 - 0.8 F 

0.6 - 0.6 F 

0.4 p 0.4 + 

0.2 FP 0.2 

á 0 : 0 
a) b) 


FIGURA 4.1 a) Histograma de probabilidad de Bernoulli(0.5). b) Histograma de 
probabilidad de Bernoulli(0.8). 


Cuando se lanza al aire una moneda hay una probabilidad de 0.5 de que caiga en “cara”. Sea 
X = 1 si la moneda cae en “cara” y X =0 si cae en “cruz”. ¿Cuál es la distribución de X? 


Solución 
Puesto que X = 1 cuando cae “cara”, ésta es resultado de éxito. La probabilidad de éxito, 
P(X = 1), es igual a 0.5. Por tanto, X — Bernoulli(0.5). 


Cuando se lanza un dado hay una probabilidad de 1/6 de que salga 6. Sea X = 1 si el dado 
cae seis y X = 0 en cualquier otro caso. ¿Cuál es la distribución de X? 


Solución 
La probabilidad de éxito es p = P(X = 1) = 1/6. Por lo que X — Bernoulli(1/6). 


Diez por ciento de los componentes fabricados mediante determinado proceso está defectuoso. 
Se selecciona un componente aleatoriamente. Sea X = 1 si el componente está defectuoso y 
X = 0 en cualquier otro caso. ¿Cuál es la distribución de X? 


Solución 
La probabilidad de éxito es p = P(X = 1) = 0.1. Por lo que X — Bernoulli(0.1). 
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Ejemplo 


CAPÍTULO 4 Distribuciones comúnmente usadas 


Media y varianza de una variable aleatoria de Bernoulli 


Es fácil calcular la media y la varianza de una variable aleatoria Bernoulli. Si X — Bernou- 
1i(p), entonces, al usar las ecuaciones (2.29) y (2.30) (en la sección 2.4), se calcula 


px = (0d — p)+ ()(p) 


=P 
0+=(0- p1—p)+(1- pp) 
= p(l-— p) 


Si X — Bernoulli(p), entonces 


Con referencia al ejemplo 4.3, determine uy y 0%. 


Solución 
Puesto que X — Bernoulli(0.1), la probabilidad de éxito p es igual a 0.1. Al usar las ecuacio- 
nes (4.1) y (4.2), uz = 0.1 y 0% = 0.1(1 — 0.1) = 0.09. 


Ejercicios para la sección 4.1 


1. Un jugador de basquetbol está a punto de tirar hacia la par- 
te superior del tablero. La probabilidad de que anote el tiro 


es de 0.55. 


a) Sea X = 1, si anota el tiro, si no lo hace, X = 0. Deter- 


una grande. Sea X = 1 si se escoge aleatoriamente una or- 
den de una bebida pequeña y X = O en cualquier otro caso. 
Sea Y = 1 si la orden es una bebida mediana y Y = 0 en 
cualquier otro caso. Sea Z = 1 si la orden es una bebida pe- 
queña o mediana y Z = O para cualquier otro caso. 


mine la media y la varianza de X. 


b) 


c) 


Si anota el tiro, su equipo obtiene dos puntos; si lo falla, 
su equipo no recibe puntos. Sea Y el número de puntos 
anotados. ¿Tiene una distribución de Bernoulli? Si es 
así, encuentre la probabilidad de éxito. Si no, explique 
por qué. 


Determine la media y varianza de Y. 


2. En un restaurante de comida rápida, 25% de las órdenes pa- 
ra beber es una bebida pequeña, 35% una mediana y 40% 


a) Sea px la probabilidad de éxito de X. Determine px. 
b) Sea py la probabilidad de éxito de Y. Determine py. 
c) Sea pz la probabilidad de éxito de Z. Determine pz. 
d) ¿Es posible que X y Y sean iguales a 1? 

e) ¿Es pz= px + py? 

f) ¿EsZ = X + Y? Explique. 
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3. Cuando se aplica cierto barniz a una superficie de cerámi- a) Sea px la probabilidad de éxito de X. Determine py. 
ca, 5% es la probabilidad de que se decolore, 20% de que 
se agriete, y 23% de que se decolore o no se agriete, o am- 
bas. Sea X = l si se produce una decoloración y X = O en c) Sea pz la probabilidad de éxito de X. Determine pz. 
cualquier otro caso; Y = 1 si hay alguna grieta y Y = 0 
en cualquier otro caso; Z = 1 si hay decoloración o grieta, 
o ambas, y Z = 0 en cualquier otro caso. e) ¿Es pz = pxpy? 


f) ¿Es Z = XY? Explique. 


b) Sea py la probabilidad de éxito de X. Determine py. 


d) ¿Son X y Y independientes? 


a) Sea py la probabilidad de éxito de X. Determine px. 


b) Sea py la probabilidad de éxito de Y. Determine py. 6. Se lanzan dos dados. Sea X = 1 si sale el mismo número en 


c) Sea pz la probabilidad de éxito de Z. Determine pz. ambos y X = 0 en cualquier otro caso. Sea Y = 1 si la su- 
ma es 6 y Y = 0 en cualquier otro caso. Sea Z= 1 si sale el 
mismo número en los dados y ambos suman 6 (es decir, que 
e) ¿Es pz = px + py? salga 3 en los dos dados) y Z = O en cualquier otro caso. 


d) ¿Es posible que X y Y sean igual a 1? 


f) ¿EsZ= X + Y? Explique. a) Sea py la probabilidad de éxito de X. Determine py. 


b yl babilidad de éxito de Y. Determi » 
4. Sean X y Y variables aleatorias de Bernoulli. Sea Z= X + Y. a ie ds E 


c) Sea pz la probabilidad de éxito de Z. Determine pz. 
a) Demuestre que si X y Y no pueden ser iguales a 1, en- 


. 4 5 dd 
tonces Z es variable aleatoria de Bernoulli. d) ¿Son X y Y independientes? 


; ,= 2 
b) Demuestre que si X y Y no pueden ser iguales a l, en- €) ¿Es pz= ppr 
tonces pz = Px + Py. f) ¿Es Z = XY? Explique. 


c) Demuestre que si X y Y pueden ser iguales a 1, entonces 
Z no es una variable aleatoria de Bernoulli. 7. Sean X y Y variables aleatorias de Bernoulli. Sea Z = XY. 


. a) Demuestre que Z es una variable aleatoria de Bernoulli. 
5. Se lanza al aire una moneda de 1 y de 5 centavos. Sea X = 


l si sale “cara” en la moneda de 1 centavo y X = 0 en cual- b) Demuestre que si X y Y son independientes, entonces pz 
quier otro caso. Sea Y = 1 si sale “cara” en la moneda de 5 = PxDy- 

centavos y Y = O en cualquier otro caso. Sea Z = 1 si sale 

“cara” en ambas monedas y Z = 0 en cualquier otro caso. 


4.2 La distribución binomial 


Extraer un solo componente de una población y determinar si está o no defectuoso es ejem- 
plo de un ensayo de Bernoulli. En la práctica, es posible extraer varios componentes de una 
gran población y contar el número de elementos defectuosos. Esto implica realizar diversos 
ensayos de Bernoulli independientes y contar el número de éxitos. El número de éxitos es una 
variable aleatoria, que tiene una distribución binomial. 

Ahora se presenta una descripción formal de la distribución binomial. Suponga que se 
lleva a cabo una serie de n ensayos de Bernoulli, cada uno con la misma probabilidad de éxi- 
to p. Además, suponga que los ensayos son independientes; esto es, que el resultado de un en- 
sayo no influye en los resultados de alguno de los otros ensayos. Sea la variable aleatoria X 
igual al número de éxitos en n ensayos, entonces X tiene la distribución binomial con pará- 
metros n y p. La notación es X — Bin(n, p). X es una variable aleatoria discreta y sus posibles 
valores son 0, 1,...,n. 
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Si se realiza un total de n ensayos de Bernoulli y si 

mM Los ensayos son independientes 

E Cada ensayo tiene la misma probabilidad de éxito p 
MH Xesel número de éxitos en los n ensayos 


entonces X tiene la distribución binomial con parámetros n y p, que se denota como 
X — Bin(n, p). 


Se lanza al aire diez veces una moneda. Sea X el número de caras que aparecen. ¿Cuál es la 
distribución de X? 


Solución 

Hay diez ensayos de Bernoulli independientes, cada uno con probabilidad de éxito de p = 0.5. 
La variable aleatoria X es igual al número de éxitos en los diez ensayos. Por consiguiente, 
X — Bin(10, 0.5). 


Recuerde, de la discusión de independencia en la sección 1.1, que cuando se toma una 
muestra de una población finita tangible, es posible tratar a los elementos de la muestra co- 
mo independientes si es que la población es muy grande en comparación con el tamaño mues- 
tral. De lo contrario, los elementos de la muestra no serían independientes. En algunos casos 
el objetivo al extraer una muestra suele ser clasificar a cada elemento de la muestra en una de 
dos categorías. Por ejemplo, puede extraerse cierto número de elementos de una población y 
clasificar a cada uno como defectuoso o no. En estos casos cada elemento de la muestra re- 
presenta un ensayo de Bernoulli, con una categoría contada como éxito y la otra como fraca- 
so. Cuando la población de elementos es grande comparada con el número de elementos de 
la muestra, esos ensayos son independientes y, por razones prácticas, su número de éxitos tie- 
ne distribución binomial. Sin embargo, cuando el tamaño de la población no es tan grande, en 
comparación con la muestra, los ensayos no son independientes y su número de éxitos no tie- 
ne distribución binomial. La regla general es que si el tamaño muestral es de 5% o menos de 
la población, se puede emplear la distribución binomial. 


Resumen 


Suponga que una población finita contiene elementos de dos tipos, éxitos y fracasos, y 


que se extrae una muestra aleatoria simple de una población. Entonces, si el tamaño 
muestral no es mayor a 5% de aquélla, se puede utilizar la distribución binomial para 
modelar el número de éxitos. 


4.2 La distribución binomial 197 


Un lote contiene varios miles de componentes, de éstos 10% están defectuosos. Se extraen 
siete componentes de la población. Sea X el número de componentes defectuosos en la mues- 
tra. ¿Cuál es la distribución de X? 


Solución 

Puesto que el tamaño muestral es pequeño en comparación con la población (es decir, menor 
a 5%), su número de éxitos representa una distribución binomial. Por tanto, se modela X con 
la distribución binomial Bin(7, 0.1). 


Función de masa de probabilidad de una 
variable aleatoria binomial 


Ahora se deducirá la función de masa de probabilidad de una variable aleatoria binomial con un 
ejemplo. En una moneda específica existe una probabilidad de 0.6 de que salga “cara”. Se lanza 
al aire la moneda tres veces. Sea X el número de caras. Entonces X — Bin(3, 0.6). Se calcu- 
lará P(X = 2). 

Hay tres arreglos con dos “caras” en los tres lanzamientos de una moneda, HHT, HTH 
y THH. Primero se calcula la probabilidad de HHT. Este evento constituye una secuencia de 
eventos independientes: H en el primero, H en el segundo, y T en el tercer lanzamientos, res- 
pectivamente. Por separado se conoce las probabilidades de cada uno de ellos: 


P(H en el primer lanzamiento) = 0.6, P(H en el segundo) = 0.6, PCT en el tercero) = 0.4 


Como consecuencia de que los eventos son independientes, la probabilidad de que todos se 
presenten es igual al producto de sus probabilidades (ecuación 2.20 de la sección 2.3). Por 
tanto, 


P(HHT) = (0.6)(0.6)(0.4) = (0.6)7(0.4)' 


De forma similar, P(HTH) = (0.6)(0.4)(0.6) = (0.6)*(0.4)' y P(THH) = (0.4)(0.6)1(0.6) = 
(0.6)(0.4)'. Es fácil ver que todos los diferentes arreglos de dos “caras” y una “cruz” tienen 
la misma probabilidad. Ahora 


P(X = 2) = P(HHT o HTH o THH) 
= P(HHT) + P(HTH) + P(THH) 
= (0.6)0.4)' + (0.60.4)' + (0.6)(0.4)' 
= 3(0.6)'(0.4)' 


Al examinar este resultado se observa que el número 3 representa el número de arreglos de 
dos éxitos (“cara”) y un fracaso (“cruz”), 0.6 es la probabilidad de éxito p, el exponente 2 es 
el número de éxitos, 0.4 es la probabilidad de fracaso 1 — p y el exponente 1 es el número de 
fracasos. 

Ahora se puede generalizar este resultado para generar una fórmula de la probabilidad 
de x éxitos en n ensayos de Bernoulli independientes con probabilidad de éxito p, en térmi- 
nos de x, n y p. En otras palabras, es posible calcular P(X = x) donde X — Bin(n, p). Se pue- 
de ver que 
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P(X = x) = (número de arreglos de x éxitos en n ensayos) - p(1 — p)? (4.3) 


Ahora todo lo que se necesita hacer es una expresión del número de arreglos de x éxitos en n 
ensayos. Para describir este número, se necesita la notación factorial. Para cualquier entero 
positivo n, la cantidad n! (que se lee como “n factorial”) es el número 


(Ma -— Dn 2)... (6)0)1) 


Asimismo, se define 0! = 1. El número de arreglos de x éxitos en n ensayos es n!/x!(n — x)! 
(En la sección 2.2 se presentó una deducción de este resultado.) Ahora se puede definir la fun- 
ción de masa de probabilidad para una variable aleatoria binomial. 


Si X — Bin(n, p), la función de masa de probabilidad de X es 


n! 


= =%)= ml IA O 


0 de otro modo 


La figura 4.2 muestra los histogramas de probabilidad para las funciones de masa de proba- 
bilidad Bin(10, 0.4) y Bin(20, 0.1). 
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FIGURA 4.2 a) Histograma de probabilidad Bin(10, 0.4). b) Histograma de probabilidad Bin(20, 0.1). 


Ejemplo 


Determine la función de masa de probabilidad de la variable aleatoria X si X — Bin(10, 0.4). 
Determine P(X = 5). 
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Solución 
Se emplea la ecuación (4.4) con n = 10 y p = 0.4. La función de masa de probabilidad es 
10! . q 
——— AMA x=0,1,...,10 
0 de otro modo 
P(X =5) = p(5) = E O 
S!(10 — 5)! 
= 0.2007 


Se lanza al aire ocho veces un dado. Determine la probabilidad de que no salgan más de dos 
números seis. 


Solución 

Cada lanzamiento del dado es un experimento Bernoulli con una probabilidad de éxito de 1/6. 
Sea X el número de seises en los ocho lanzamientos. Entonces X — Bin(8, 1/6). Se necesita 
determinar a P(X < 2). Con el uso de la función de masa de probabilidad, 


PA=<2=P(X=00X=1l0X=2) 


8! IAEA 8! yA 
0180)! (7) (5) *u6=D1 (7) (5) 
8! PER 
IED! (5) (5) 


= 0.2326 + 0.3721 + 0.2605 
= 0.8652 


La tabla A.1 (en el Apéndice A) presenta probabilidades binomiales de la forma P(X <= x) 
para n = 20 y valores seleccionados de p. Los ejemplos 4.9 y 4.10 muestran el uso de esta 
tabla. 


Una gran compañía industrial hace un descuento en cualquier factura que se pague en un lap- 
so de 30 días. De todas las facturas, 10% recibió el descuento. En una auditoría de la compa- 
ñía se seleccionó aleatoriamente 12 facturas. ¿Cuál es la probabilidad de que menos de cuatro 
de las 12 facturas de la muestra tengan descuento? 


Solución 

Sea X el número de facturas en la muestra que recibe descuento. Entonces X — Bin(12, 0.1). 
La probabilidad de que menos de cuatro facturas tengan descuento es P(X <= 3). Se consulta 
la tabla A.1 con n = 12, p = 0.1 y x = 3. Se encuentra que P(X < 3) = 0.974, 
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Algunas veces, la mejor manera para calcular la probabilidad de un evento consiste en 
estimar la probabilidad de que no ocurra el evento, y después restársela a 1. El ejemplo 4.10 
proporciona ejemplo de esto último. 


Con referencia al ejemplo 4.9, ¿cuál es la probabilidad de que más de una de las 12 facturas 
de la muestra tenga descuento? 


Solución 

Sea X el número de facturas en la muestra que recibe descuento. Se desea calcular la proba- 
bilidad P(X > 1). La tabla A.1 presenta las probabilidades en la forma P(X <= x). Por conse- 
cuencia, se observa que P(X > 1) = 1 — P(X <= 1). Consultando la tabla con n = 12, p = 
0.1, x = 1, se encontró que P(X = 1) = 0.659. Por tanto, P(X > 1) = 1 — 0.659 = 0,341. 


Una variable aleatoria binomial constituye la suma 
de variables aleatorias de Bernoulli 


Suponga que se realiza n ensayos de Bernoulli independientes, cada uno con probabilidad de 
éxito p. Sean Y, ..., Y, definidas de la siguiente manera: Y, = 1 si el ¡-ésimo experimento 
da como resultado un éxito, y Y, = 0, de otro modo. Entonces cada una de las variables alea- 
torias Y, sigue una distribución Bernoulli(p). Ahora, sea que X represente el número de éxitos 
en los n ensayos. Entonces, X — Bin(n, p). Puesto que cada Y,es 0 o 1, la suma Y, + +++ + 

, es igual al número de los Y; que tienen el valor 1, que es el número de éxitos en los n en- 
sayos. Por tanto, X = Y, + -* + + Y,,. Esto último demuestra que una variable aleatoria bino- 
mial se puede expresar como la suma de variables aleatorias de Bernoulli. Dicho en otro 
modo, extraer un solo valor de una población Bin(n, p) equivale a extraer una muestra de ta- 
maño n de una población Bernoulli(p), y luego sumar los valores de la muestra. 


La media y varianza de una variable aleatoria binomial 


Es fácil calcular la media de una variable aleatoria binomial. Por ejemplo, si se lanza al aire 
una moneda durante diez veces, se espera ver, en promedio, cinco veces “cara”. El número 
cinco proviene de la multiplicación de la probabilidad de éxito (0.5) por el número de expe- 
rimentos (10). Este método generalmente funciona. Si se realizara n ensayos de Bernoulli, ca- 
da uno con una probabilidad de éxito p, el número promedio de éxitos es np. Por consiguiente, 
si X — Bin(n, p), entonces uz = np. Se puede comprobar esta intuición cuando se observa que 
X es la suma de n variables de Bernoulli, cada una con media p. Por tanto, la media de X es la 
suma de las medias de variables aleatorias de Bernoulli que la componen, que es igual a np. 

Se puede calcular a ax al observar que X es la suma de variables aleatorias independien- 
tes de Bernoulli y recordando que la varianza de una variable aleatoria Bernoulli p(1 — p). 
Por tanto, la varianza de X es la suma de las varianzas de las variables aleatorias de Bernou- 
11i que la integran, que es igual a np(1 — p). 


4.2 La distribución binomial 201 


Si X — Bin(n, p), entonces la media y la varianza de X están dadas por 


px = np (4.5) 
= mp(l — p) (4.6) 


Si 


Con el uso de la función de masa de probabilidad binomial (ecuación 4.4), se puede, en 
principio, calcular la media y la varianza de una variable aleatoria binomial mediante las de- 
finiciones de la media y la varianza de una variable aleatoria discreta (ecuaciones 2.29 y 2.30 
en la sección 2.4). Estas expresiones implican sumatorias que son tediosas de evaluar. Es más 
sencillo considerar una variable aleatoria binomial como una suma de variables de Bernoulli 
aleatorias independientes. 


Uso de una proporción muestral para estimar la probabilidad de éxito 


En muchos casos no se conoce la probabilidad de éxito p asociada con cierto ensayo de Ber- 
noulli, y se desea estimar su valor. Una forma natural de esto último consiste en realizar ex- 
perimentos independientes n y contar el número X de éxitos. Para estimar la probabilidad de 
éxito p se calcula la proporción muestral Pp. 


número de éxitos X 


P número de ensayos n 


Esta notación sigue un patrón que es importante conocer. La probabilidad de éxito, que se des- 
conoce, está representada por p. La proporción muestral, la cual se conoce, se representa por 
p. El “sombrero” (7) indica que P se utiliza para estimar un valor desconocido p. 


Un ingeniero que supervisa el control de calidad está probando la calibración de una máqui- 
na que empaca helado en contenedores. En una muestra de 20 de éstos, tres no están del to- 
do llenos. Estime la probabilidad p de que la máquina no llene bien un contenedor. 


Solución 
La proporción muestral de contenedores no llenos es p = 3/20 = 0.15. Se estima que la pro- 
babilidad p de que la máquina no llene bien un contenedor es también igual a 0.15. 


Incertidumbre en una proporción muestral 


Es importante considerar que la proporción muestral p es sólo una estimación de la probabi- 
lidad de éxito p, y que, en general, no es igual a p. Si se tomara otra muestra, probablemente 
el valor de Pp sería diferente. Es decir, hay incertidumbre en p. Para que p sea una estimación 
útil, se debe calcular su sesgo y su incertidumbre. Ahora se hace esto. Sea n el tamaño mues- 
tral y X el número de éxitos, donde X — Bin(n, p). 
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El sesgo es la diferencia uz — p. En virtud de que Pp = Xín, se tiene, a partir de la ecua- 
ción (2.41), (de la sección 2.5) que 
mx 
Mp = Mx /n= == 
np 


n 


Pp 


Debido a que 1; = p, P no es sesgado; en otras palabras, su sesgo es 0. 

La incertidumbre es la desviación estándar 0;. A partir de la ecuación (4.6), la desvia- 
ción estándar de Xes ox = ynpU — p). Puesto que p = X/n, se tiene a partir de la ecuación 
(2.43) (de la sección 2.5) que 


Ox 
On = 0xX/n = —— 
P / A 


e /np(l — p) Ml JpA — p) 
n n 


En la práctica, cuando se calcula la incertidumbre de Pp, no se conoce la probabilidad de éxi- 
to p, por lo que se le aproxima con p. 


Si X — Bin(n, p), entonces la proporción muestral p = X/n se emplea para estimar la 
probabilidad de éxito p. 


E Pno sesgado. 


EM La incertidumbre en pp es 


1]. = 
=p (4.7) 


En la práctica, cuando se calcula 0”; se sustituye P por p, dado que no se conoce p. 


Un comisionado de seguridad en una gran ciudad quiere estimar la proporción de edificios en 
la ciudad que viola los códigos de incendios. Se elige una muestra aleatoria de 40 edificios 
para inspeccionarlos, y se descubre que cuatro no cumplen el código de incendios. Estime la 
proporción de edificios en la ciudad que violan éste y encuentre la incertidumbre en la esti- 
mación. 


Solución 
Sea p la proporción de edificios en la ciudad que no cumple el código de incendios. El tama- 
ño muestral (número de ensayos) es n = 40. El número de edificios con violaciones (éxitos) 
es X = 4, Se estima p con la proporción muestral Pp. 

XxX 4 


p===->—=0.10 
Pp n 40 
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Al usar la ecuación (4.7), la incertidumbre en p es 


- ABL=p) 
09 = Sr 


Al sustituir p = 0.1 por p y 40 por n, se obtiene 


(0.10)(0.90) 
dd ES 


= 0.047 


En el ejemplo 4.12 se obtuvo que la incertidumbre en la proporción muestral era muy 
grande. Se puede reducir aquélla al aumentar el tamaño de esta última. El ejemplo 4.13 mues- 
tra cómo calcular el tamaño necesario para reducir la incertidumbre a una cantidad específica. 


En el ejemplo 4.12, ¿cuántos edificios adicionales deben inspeccionarse para que la incerti- 
dumbre de la proporción muestral de los edificios que no cumple el código sea sólo de 0.02? 


Solución 
Se necesita determinar el valor de n de tal forma que 07 = Vp( — p)/n = 0.02. Al apro- 


ximar p con p = 0.1, se obtiene 
0.1)(0.9 
0) DOS _ 0) 
n 


Al despejar n se tiene que n = 225. Ya se ha señalado 40 edificios, por lo que ahora se nece- 
sita indicar 185 más. 


Algunas veces se desea estimar el valor de una función f(p) de una probabilidad de éxi- 
to p. En estos casos se estima f(p) con A(p), donde p es la proporción muestral. Posteriormen- 
te se puede emplear el método de propagación de errores (ecuación 3.10 de la sección 3.3) 
para encontrar la incertidumbre en (Pp). 


En una muestra de 100 llantas nuevas de automóvil, se descubrió que siete de éstas tienen im- 
perfecciones en el dibujo. Si se seleccionan aleatoriamente cuatro llantas nuevas y se instalan 
en un automóvil, estime la probabilidad de que ninguna de ellas tenga alguna imperfección, 
y determine la incertidumbre en la estimación. 


Solución 

Sea p la probabilidad de que una llanta no tenga imperfecciones. Se inicia al calcular la pro- 
porción muestral p y determinando su incertidumbre. La proporción muestral es p = 93/100 
= 0.93. La incertidumbre en p está dada por o; = y/p(l — p)/n. Se sustituye n = 100 y 
Pp = 0.93 en p para obtener 
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/(0.93)(0.07) 
==) ÁS 2 
07 100 0.0255 


Ahora la probabilidad de que ninguna de las cuatro llantas tenga alguna imperfección es p”. 
Lo anterior se estima con Pp = 0.93* = 0.7481. Se emplea la ecuación (3.10) para calcular la 
incertidumbre en p”: 


mu 


Op “Ss 


= 470; 
= 4(0.93)* (0.0255) 
= 0.082 


Ejercicios para la sección 4.2 


1. Sea X — Bin(8, 0.4). Determine 4. En un cargamento grande de llantas de automóvil, 5% tiene 
cierta imperfección. Se eligen aleatoriamente cuatro llantas 


a) P(X = 2) para instalarlas en el automóvil. 
b) PX = 4) S a 

a) ¿Cuál es la probabilidad de que ninguna de las llantas 
c) PX <2) tenga imperfección? 
d) (X> 6) b) ¿Cuál es la probabilidad de que sólo una de las llantas 
e) Mx tenga imperfección? 
Pa c) ¿Cuál es la probabilidad de que una o más de las llantas 


tenga imperfección? 
2. Se toma una muestra de cinco elementos de una población 
grande en la cual 10% de los elementos está defectuoso. 5. En un patrón aleatorio de ocho bits utilizado para probar un 
microcircuito, cada bit tiene la misma probabilidad de ser O 


a) Determine la probabilidad de que ninguno de los ele- o 1. Suponga que los valores de los bits son independientes. 


mentos de la muestra esté defectuoso. 


b) Determine la probabilidad de que sólo uno de ellos ten- a) ¿Cuál es la probabilidad de que todos los bits sean 1? 


ga defectos. b) ¿Cuál es la probabilidad de que exactamente tres de los 


c) Determine la probabilidad de que uno o más de los ele- bits sean 1? 


mentos de la muestra estén defectuosos. Cc 


== 


¿Cuál es la probabilidad de que al menos seis de los bits 


d) Determine la probabilidad de que menos de dos elemen- sean 1? 


tos de la muestra tenga defectos. d 


= 


¿Cuál es la probabilidad de que al menos dos de los bits 
sean 1? 
3. Se lanza al aire una moneda diez veces. 

6. Un ingeniero que supervisa el control de calidad, seleccio- 


a) ¿Cuál es la probabilidad de obtener exactamente tres ve- 
ces “cara”? 


b) Determine la media del número de caras obtenidas. 
c) Determine la varianza del número de caras obtenidas. 


d) Determine la desviación estándar del número de caras 
obtenidas. 


na una muestra aleatoria de 100 varillas de acero de la pro- 
ducción del día, descubre que 92 de ellas satisfacen las 
especificaciones. 


a) Estime la proporción, de la producción de ese día, que 
satisface las especificaciones y determine la incertidum- 
bre en la estimación. 


10 


b) Estime el número de varillas que se debe seleccionar pa- 
ra reducir la incertidumbre a 1 por ciento. 


En una muestra aleatoria de 100 partes ordenadas al vende- 
dor A, 12 estaban defectuosas. En una muestra aleatoria de 
200 partes ordenadas al vendedor B, diez estaban defectuosas. 


a) Estime la proporción de partes del vendedor A que están 
defectuosas y determine la incertidumbre en la estima- 
ción. 

b) Estime la proporción de partes del vendedor B que están 

defectuosas y encuentre la incertidumbre en la estima- 

ción. 

c) Estime la diferencia en las proporciones y determine la 

incertidumbre en la estimación. 


De los elementos producidos en determinado proceso, 20% 
estaba defectuoso; de ellos, se puede reparar 60 por ciento. 


a) Determine la probabilidad de que un elemento elegido de 
forma aleatoria esté defectuoso y no se pueda reparar. 


b) Determine la probabilidad de que sólo dos de los 20 ele- 
mentos seleccionados aleatoriamente esté defectuoso y 
no se pueda reparar. 


De los pernos manufacturados por cierta aplicación, 90% 
satisface la longitud especificada y se puede utilizar inme- 
diatamente, 6% está demasiado largo y sólo se puede usar 
después de que sea cortado, y 4% está demasiado corto y 
debe desecharse. 


a) Determine la probabilidad de que un perno selecciona- 
do aleatoriamente se pueda utilizar (inmediatamente o 
después de ser cortados). 


b) Determine la probabilidad de que menos de nueve de 
una muestra de diez pernos se puedan utilizar (inmedia- 
tamente o después de ser cortados). 


Una distribuidora recibe importante cargamento de compo- 
nentes. A la empresa le gustaría aceptar el cargamento si 
10% o menos de los componentes está defectuoso y recha- 
zarlo si más de 10% presenta defecto. Se opta por seleccio- 
nar diez de éstos, y regresar el envío si más de uno tiene 
defectos. 


a) Si la proporción de pernos defectuosos en la muestra es 
de hecho 10%, ¿cuál es la probabilidad de que la distri- 
buidora regrese el cargamento? 


b) Si la proporción de pernos defectuosos en la muestra es 
20%, ¿cuál es la probabilidad de que la empresa regrese 
el cargamento? 


11. 


12. 
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c) Si la proporción de pernos con defecto en la muestra es 
2%, ¿cuál es la probabilidad de que la compañía regre- 
se el cargamento? 


d 


= 


La distribuidora decide que aceptará el cargamento sólo 
si ninguno de los elementos de la muestra está defectuo- 
so. ¿Cuál es el número mínimo de elementos que debe 
seleccionar si quiere tener una probabilidad no mayor a 
0.01 de aceptar el cargamento si es que 20% de los com- 
ponentes del cargamento tiene defectos? 


Cierto cargamento viene con la garantía de que contiene no 

más de 15% de unidades defectuosas. Si la proporción de 

unidades defectuosas es mayor a 15%, aquél será regresado. 

Se extrae una muestra aleatoria de diez unidades. Sea X el 

número de unidades defectuosas en la muestra. 

a) Si, de hecho, 15% de las unidades en el cargamento es- 
tá defectuoso (por lo que apenas el cargamento es acep- 
table), ¿a qué es igual P(X = 7)? 

b) Con base en la respuesta del inciso (a), si 15% de las 
unidades del cargamento está defectuoso, ¿siete piezas 
defectuosas en una muestra de diez es un número inusual- 
mente grande? 

c) Si se descubre que siete de las diez unidades de la mues- 
tra está defectuoso, ¿esto sería una evidencia de que se 
debe regresar el cargamento? Explique. 

d) Si, de hecho, 15% de las unidades en el cargamento es- 
tá defectuoso, ¿a qué es igual P(X = 2)? 

e) Con base en la respuesta al inciso (b), si 15% de las uni- 
dades del cargamento está defectuoso, ¿dos muestras 
defectuosas entre diez sería un número inusualmente 
grande? 

f) Si se descubre que dos de las diez unidades de la mues- 
tra están defectuosas, ¿ello sería una evidencia de que se 
debe regresar el cargamento? Explique. 

Una compañía aseguradora ofrece descuentos a los propie- 


tarios de casas que deseen instalar detectores de humo en 
sus hogares. Un representante de la empresa afirma que 
80% o más de los asegurados tiene detectores de humo. Us- 
ted toma una muestra aleatoria de ocho asegurados. Sea X el 
número de éstos en la muestra que tiene detectores de humo. 


a) Si exactamente 80% de los asegurados tiene detectores 
de humo (por lo que la afirmación del representante es 
verdadera, pero apenas), ¿a qué es igual P(X <= 1)? 


b) Con base en la respuesta al inciso (a), si 80% de los ase- 
gurados tiene detectores de humo, ¿uno de aquéllos en 
una muestra de ocho sería un número inusualmente pe- 
queño? 
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13. 


14. 


c) Si se descubre que uno de los ocho asegurados de la 
muestra tenía un detector de humo, ¿esto sería una evi- 
dencia de que la afirmación es falsa? Explique. 


d 


= 


Si exactamente 80% de los asegurados tiene detectores 

de humo, ¿a qué es igual P(X <= 6)? 

e) Con base en la respuesta al inciso (d), si 80% de los ase- 
gurados tiene detectores de humo, ¿seis de aquéllos en 
una muestra de ocho sería un número inusualmente pe- 
queño? 

f) Si usted descubre que seis de los ocho asegurados de la 

muestra tenían detectores de humo, ¿esto sería una evi- 

dencia de que la afirmación es falsa? Explique. 


Unas figurillas de porcelana se venden a 10 dólares si no 
tienen imperfección, y a 3 dólares si la presentan. Entre las 
figurillas de cierta compañía, 90% no tiene imperfecciones 
y 10% sí tiene. En una muestra de 100 figurillas ya vendi- 
das, sea Y el ingreso ganado por su venta y X el número de 
éstas que no presenta imperfecciones. 


a) Exprese Y como una función de X. 
b) Determine uy. 


c) Determine dy. 


El diseño de un sistema requiere la instalación de dos com- 
ponentes idénticos. El sistema funcionará si al menos uno 


16. 


17. 
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de los componentes lo hace. Un diseño alterno necesita cua- 
tro de estos componentes, y el sistema funcionará si al menos 
dos de los cuatro componentes funcionan. Si la probabilidad 
de que el componente funcione es de 0.9, y si los componen- 
tes funcionan de forma independiente, ¿qué diseño tiene la 
mayor probabilidad de funcionar? 


Con referencia al ejemplo 4.14 estime la probabilidad de 
que sólo una de las cuatro llantas tenga alguna imperfec- 
ción, y determine la incertidumbre en la estimación. 


Si p es la probabilidad de éxito, a la cantidad p/(1 — p) se 
le llama oportunidad. Ésta se estima en la investigación mé- 
dica. El artículo “A Study of Twelve Southern California 
Communities with Differing Levels and Types of Air Pollu- 
tion” (J. Peters, E. Avol y colaboradores, en The American 
Journal of Respiratory and Critical Care Medicine, 1999: 
760-767) presenta una evaluación de la salud respiratoria de 
niños del sur de California. Suponga que a 88 infantes, en 
una muestra de 612 estudiados, se les diagnosticó bronqui- 
tis durante los últimos 12 meses. 


a) Estime la proporción p de niños a los que se les ha diag- 
nosticado bronquitis y encuentre la incertidumbre en la 
estimación. 


b) Estime la oportunidad y determine la incertidumbre en 
la estimación. 


4.3 La distribución de Poisson 


La distribución de Poisson se utiliza con frecuencia en el trabajo científico. Una manera de 
considerarla es como una aproximación de la distribución binomial cuando n es grande y p es 
pequeña. Esto último se muestra con un ejemplo. 

Una masa contiene 10 000 átomos de una sustancia radiactiva. La probabilidad de que 
cierto átomo decaiga en un periodo de un minuto es de 0.0002. Sea X el número de átomos 
que decae en un minuto. Se puede considerar a cada átomo como un ensayo de Bernoulli, en 
los que el éxito ocurre si el átomo decae. Por tanto, X es el número de éxitos en 10 000 ensayos 
de Bernoulli independientes, cada uno con probabilidad de éxito de 0.0002, de tal forma que la 
distribución de X es Bin(10 000, 0.0002). La media de X es uy = (10 000)(0.0002) = 2. 

Otra masa contiene 5 000 átomos y cada uno de éstos tiene probabilidad de 0.0004 de 
decaer en un intervalo de un minuto. Sea Y el número de átomos de esta masa que decae en 
un minuto. Siguiendo la lógica del párrafo anterior, Y — Bin(5 000, 0.0004) y uy = (5 000) 
(0.0004) = 2. 

En cada uno de estos casos, el número de ensayos n y la probabilidad de éxito p son di- 
ferentes, pero el número promedio de éxitos, que es igual al producto np, es el mismo. Aho- 
ra suponga que se quiere calcular la probabilidad de que sólo tres átomos decaigan en un 
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minuto para cada una de estas masas. Mediante la función de masa de probabilidad binomial, 
se calcula de la siguiente manera: 


10 000! 

P(X=3)= uan (0.0002)? (0.9998) = 0.180465091 
5 000! 

P(Y =3) = Sos (0.0004) (0.9996) = 0.180483143. 


Estas probabilidades son casi iguales entre sí. Aunque a partir de la fórmula de la fun- 
ción de masa de probabilidad binomial esto no es obvio, cuando n es grande y p es pequeña 
la función de masa depende por completo de la media np, y muy pocos de los valores espe- 
cíficos de n y p. Por consiguiente, se puede aproximar la función de masa binomial con una 
cantidad que dependa sólo del producto np. Específicamente, si n es grande y p es pequeña, 
y A = np, se puede demostrar mediante métodos avanzados que para todas las x, 


n! A* 
A NX RÁ HA 4.8 
ua 47 e id 


Esto conduce a la definición de una nueva función de probabilidad, denominada función de 
masa de probabilidad de Poisson, que se define mediante 


A : . 
At_ s1 x es un entero no negativo 
pO)= PH == l xl (4.9) 


de otro modo 


Si X es una variable aleatoria cuya función de masa de probabilidad está dada por la 
ecuación (4.9), entonces X sigue una distribución de Poisson con parámetro A. La notación 
es X — Poisson(A). 


Si X — Poisson(3), calcule P(X = 2), P(X = 10), P(X = 0), P(X = — 1) y P(X = 0.5). 


Solución 
Cuando se usa la función de masa de probabilidad (4.9), con A = 3, se obtiene 


32 
P(X =2)= Me = 0.2240 
310 
P(X = 10) = e ?— = 0.0008 
10! 
30 
P(X=0)= da = 0.0498 
P(x=-1)=0 debido a que —1 no es un entero no negativo, 


P(X=0.5)=0 debido a que 0.5 no es un entero no negativo 
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Ejemplo 


Si X — Poisson(4), calcule P(X <= 2) y P(X > 1). 


Solución 


P(X <2) = P(X=0)+ P(X =1) + P(X =2) 


40 4! 42 
a 4 4 
== a a 
= 0.0183 + 0.0733 + 0.1465 
= 0.2381 


Para encontrar P(X > 1) se escribe 


P(X>1)=P(X=2D+P(X=3)+--. 


Esto último conduce a una suma infinita que es difícil de calcular. En vez de esto, se escribe 


P(X>1)=1-P(X<D 
=1-[P(X =0)+ P(X =1)] 


= 1-— (0.0183 + 0.0733) 
= 0.9084 


Para las masas radiactivas descritas al inicio de esta sección, se utiliza la función de ma- 


sa de Poisson para aproximar a P(X = x) o P(Y = x) sustituyendo a A = 2 en la ecuación (4.9). 
La tabla 4.1 muestra que la aproximación es excelente. 


TABLA 4.1 Ejemplo de una aproximación de Poisson a la función de masa de probabilidad binomial* 


P(X = x), P(Y = x), Aproximación de Poisson 
Xx X “ Bin (10 000, 0.0002) Y — Bin (5 000, 0.0004) Poisson (2) 
0 0.135308215 0.135281146 0.135335283 
1 0.270670565 0.270670559 0.270670566 
2 0.270697637 0.270724715 0.270670566 
3 0.180465092 0.180483143 0.180447044 
4 0.090223521 0.090223516 0.090223522 
5 0.036082189 0.036074965 0.036089409 
6 0.012023787 0.012017770 0.012029803 
7 0.003433993 0.003430901 0.003437087 
8 0.000858069 0.000856867 0.000859272 
9 0.000190568 0.000190186 0.000190949 


* Cuando n es grande y p pequeña, la función de masa de probabilidad Bin(n, p) también se aproxima mediante la función de masa de pro- 
babilidad de Poisson (A) (ecuación 4.9), con A = np. Aquí X — Bin(10 000, 0.0002) y Y — Bin(5 000, 0.0004), por lo que A = np = 2, y 
la aproximación de Poisson es Poisson(2). 
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Si X — Poisson(A), entonces 


E Xesuna variable aleatoria discreta, cuyos posibles valores son enteros no negati- 
vOS. 


m El parámetro A es una constante positiva. 
m La función de masa de probabilidad de X es 


a sixesun entero no negativo 


no Pao ql 


0 de otro modo 


m La función de masa de probabilidad de Poisson se aproxima mucho a la función 
de masa de probabilidad binomial cuando n es grande, p es pequeña y A = np. 


Media y varianza de una variable aleatoria de Poisson 


Para calcular la media y la varianza de una variable aleatoria de Poisson, se emplea la función 
de masa de probabilidad junto con las definiciones dadas por las ecuaciones (2.29) y (2.30) (de 
la sección 2.4). Al final de esta sección se muestran deducciones rigurosas de la media y de la 
varianza con este método. Aquí se presenta un enfoque intuitivo. Si X — Poisson(A) se puede 
considerar a X como una variable aleatoria binomial con n grande, p pequeña y np = A. Dado 
que la media de una variable aleatoria binomial es np, se tiene que la media de una variable 
aleatoria de Poisson es A. La varianza de una variable aleatoria binomial es np(1 — p). Puesto 
que p es muy pequeña, se puede reemplazar 1 — p con 1, y concluir que la varianza de una va- 
riable aleatoria de Poisson es np = A. Observe que esta última es igual a su media. 


m Si X — Poisson(A), entonces la media y la varianza de X están dadas por 
px=4 (4.10) 


e=1 (4.11) 


La figura 4.3 muestra histogramas de probabilidad para las funciones de masa de probabili- 
dad de Poisson(1) y de Poisson(10). 

Uno de los primeros usos industriales de la distribución Poisson se aplicó en la fabrica- 
ción de cervezas. Un paso fundamental en dicho proceso es la adición de la cultura de la le- 
vadura para preparar la malta para la fermentación. Se mantiene a las células vivas de 
levadura suspendidas en un medio líquido. Debido a que las células están vivas, su concen- 
tración en el medio cambia con el tiempo. Por tanto, antes de que se agregue la levadura, se 
necesita calcular la concentración de células de levadura por unidad en el volumen de la sus- 
pensión, para asegurarse de que se añadió la cantidad correcta. 
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FIGURA 4.3 a) Histograma de probabilidad de Poisson(1), b) Histograma de probabilidad de Poisson(10). 


Hasta principios del siglo Xx, lo anterior consistía un problema para los fabricantes de 
cerveza. Ellos estimaban la concentración al extraer un pequeño volumen de la suspensión y 
contar las células de levadura en ésta utilizando un microscopio. Por supuesto que las estima- 
ciones determinadas así estaban sujetas a la incertidumbre, pero nadie sabía cómo calcular ésta. 
Por tanto, nadie sabía en cuánto podía diferir la concentración de la muestra de la concentra- 
ción verdadera. 

William Sealy Gosset, un joven de 25 años, fue contratado por la compañía cervecera 
Guinness, de Dublín, Irlanda, y descubrió en 1904 que el número de células de levadura en el 
volumen de la suspensión de una muestra seguía una distribución de Poisson. Entonces desa- 
rrolló métodos para calcular la incertidumbre. El descubrimiento de Gosset no sólo le permi- 
tió a Guinness hacer un producto más consistente, sino que demostró que la distribución de 
Poisson puede tener aplicaciones importantes en muchas situaciones. Gosset quería publicar 
su resultado, pero sus jefes consideraron que su descubrimiento era información privada y se 
lo prohibieron. De todos modos Gosset lo publicó, pero para esconder este hecho a sus jefes, 
utilizó el seudónimo “Estudiante”. 

En el ejemplo 4.17 se seguirá una lógica de razonamiento que conduce al resultado de 
“Estudiante”. Antes de esto, se mencionará que cuatro años después de publicar ese resulta- 
do, hizo otro descubrimiento que resolvió uno de los problemas pendientes más importantes 
de la estadística, y que ha tenido, desde entonces, una profunda influencia en los trabajos de 
casi todos los campos de la ciencia. Ese resultado se analiza en la sección 5.3. 


Unas partículas (por ejemplo, células de levadura) están suspendidas en un medio líquido con 
concentración de diez partículas por mL. Se agita por completo un volumen grande de la sus- 
pensión y después se extrae 1 mL. ¿Cuál es la probabilidad de que sólo se extraigan ocho par- 
tículas? 


E jemplo 
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Solución 

Siempre y cuando el volumen extraído sea una fracción pequeña del total, la solución a este 
problema no depende del volumen total de la suspensión, sino sólo de la concentración de 
partículas en éste. Sea V el volumen total de la suspensión, en mL. Entonces, el número total 
de partículas en la suspensión es 10V. Considere a cada una de éstas como un ensayo de Ber- 
noulli. Una partícula tiene “éxito” si es retirada. Ahora, se extrae 1 mL del total de V mL. Por 
consecuencia, la cantidad que se retirará representa 1/V del total, de ahí que cada partícula 
tenga una probabilidad de 1/V de ser retirada. Sea X el número de partículas extraídas. De es- 
te modo, X representa el número de éxitos en 10V ensayos de Bernoulli, cada uno con proba- 
bilidad de éxito de 1/V. Por tanto, X — Bin(10V, 1/V). Puesto que V es grande, 10V es grande 
y 1/V es pequeño. Por consiguiente, en una aproximación muy cercana, X — Poisson(10). Se 
calcula P(X = 8) con la función de masa de probabilidad Poisson: P(X = 8) =e — M10%/81 = 
0.1126. 


En el ejemplo 4.17, A tenía un valor de 10 ya que el número promedio de partículas en 
1 mL de suspensión (el volumen retirado) era 10. 


Unas partículas están suspendidas en un medio líquido con concentración de seis partículas 
por mL. Se agita por completo un volumen grande de la suspensión, y después se extrae 3 mL. 
¿Cuál es la probabilidad de que sólo se retiren 15 partículas? 


Solución 

Sea X el número de partículas extraídas. El número promedio de partículas en un volumen 
de 3 mL es 18. Entonces X — Poisson(18). La probabilidad de que se extraigan sólo 15 par- 
tículas es 


15 

P(X=15=e'* 1 
15! 

= 0.0786 


Observe que para que las soluciones de los ejemplos 4.17 y 4.18 sean correctas, es im- 
portante que la cantidad extraída de la suspensión no sea una fracción demasiado grande del 
total. Por ejemplo, si el volumen total en el ejemplo 4.18 fuera de 3 mL, de tal forma que se 
extrajera toda la cantidad, se tendría la certeza de que se retiraron las 18 partículas, por lo que 
la probabilidad de extraer 15 partículas sería igual a cero. 


La abuela hornea galletas de chispas de chocolates en grupos de 100. Ella agrega 300 chispas 
en la masa. Cuando las galletas están hechas, le ofrece una. ¿Cuál es la probabilidad de que 
su galleta no tenga chispas de chocolate? 


Solución 

Éste es otro caso de partículas en suspensión. Sea X el número de chispas en su galleta. La 
media del número de chispas es tres en cada galleta, de forma que X — Poisson(3). De ahí que 
P(X =0) = e" 30! = 0.0498. 


Ejemplo 
14.22) 
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Los nietos de la abuela se han estado quejando de que ella es muy tacaña con las chispas de 
chocolate. La abuela acuerda agregar las suficientes chispas a la masa de tal forma que sólo 
1% de las galletas no tendrá chispas de chocolate. ¿Cuántas chispas debe incluir en la masa 
de 100 galletas para lograr su propósito? 


Solución 

Sea n el número de chispas que se incluirá en una masa de 100 galletas, y X el número de 
chispas en su galleta. La media del número de chispas es 0.01n por cada galleta, por lo que 
X — Poisson(0.01n). Se debe determinar el valor de n para el cual P(X = 0) = 0.01. Utilizan- 
do la función de masa de probabilidad Poisson(0.01n) 


—0.01n (0.01n y 


P(X=0)=e a 


= ¿001 


Al hacer e%%” = 0,01, se obtiene que n = 461. 


Los ejemplos 4.17 a 4.20 demuestran que para que las partículas se distribuyan unifor- 
memente en un medio, el número de partículas que por casualidad está en una pequeña por- 
ción del medio sigue una distribución de Poisson. En estos ejemplos, las partículas eran reales 
y el medio era un espacio natural. Sin embargo, existen muchos casos en los que las “partí- 
culas” representan eventos y el medio es el tiempo. Anteriormente se vio tal ejemplo, en el 
que resulta ser que el número de eventos de decaimiento radiactivo en un intervalo fijo sigue 
una distribución de Poisson. Ahora se presenta otro. 


Suponga que el número de visitas a cierto sitio web durante un intervalo fijo sigue una distri- 
bución de Poisson. Suponga que la media de la razón de visitas es de cinco en cada minuto. 
Determine la probabilidad de que haya sólo 17 visitas en los siguientes tres minutos. 


Solución 

Sea X el número de visitas en tres minutos. La media del número de visitas en tres minutos 
es (513) = 15, por lo que X — Poisson(15). Utilizando la función de masa de probabilidad 
de Poisson(15), 


15157 
171 
= 0.0847 


P(X=1)=8€ 


En el ejemplo 4.21, sea X el número de visitas en £ minutos. Determine la función de masa de 
probabilidad de X, en función de 1. 
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Solución 
La media del número de visitas en £ minutos es 5£, por lo que X — Poisson(51). La función de 
masa de probabilidad de X es 

esp) 


pe) =P(=1)= 22 1=0,1,2,... 
Xx! 


Uso de la distribución de Poisson para estimar una razón 


A menudo se realizan experimentos para estimar una razón A que represente la media del nú- 
mero de eventos que ocurren en una unidad de tiempo o espacio. En estos experimentos se 
cuenta el número de eventos X que ocurre en f unidades, y se estima la razón A con la canti- 
dad A = X/1. (Observe que en virtud de que la cantidad X/1 se utiliza para estimar A, ésta se 
denota como 4.) Si los números de eventos en intervalos disjuntos son independientes, y si no 
es posible que los eventos ocurran simultáneamente, entonces X sigue una distribución de 
Poisson. Al proceso que da como resultado dichos eventos se le denomina proceso de Pois- 
son. Puesto que la media del número de eventos que ocurre en f unidades de tiempo o espa- 
cio es igual a At, X — Poisson(As). 


Sea A la media del número de eventos que ocurre en una unidad de tiempo o espacio. 


Sea X el número de eventos que ocurre en £ unidades de tiempo o espacio. Entonces si 
X — Poisson(A£), A se estima con A = X/t. 


Una suspensión contiene partículas en una concentración desconocida de A por mL. Se agita 
por completo la suspensión, y después se extraen 4 mL y se cuentan 17 partículas. Estime A. 


Solución 
Sea X = 17 el número de partículas contadas y £ = 4 mL el volumen extraído de la suspen- 
sión. Entonces A = X/1 = 17/4 = 4.25 partículas por mL. 


Incertidumbre en la razón estimada 


Es importante darse cuenta que la razón estimada o concentración A sólo representa una esti- 
mación de la verdadera razón o concentración A. En general, 2 no es igual a A. Si se repitie- 
ra el experimento, probablemente el valor de % sería diferente. En otras palabras, hay 
incertidumbre en A. Para que % sea una estimación útil, se debe calcular su sesgo e incerti- 
dumbre. Los cálculos son similares a los de la proporción muestral presentados en la sección 
4.2. Sea X el número de eventos contados en f unidades de tiempo o espacio, y suponga que 
X — Poisson(A1). 

El sesgo es la diferencia uz — A. Dado que 2 = X/t, se tiene a partir de la ecuación 
(2.41) (de la sección 2.5) que 
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px 
Mi = Mx] = a 


Puesto que uz = A, A no es sesgado. 

La incertidumbre es la desviación estándar dz. Dado que A = XIt, se tiene a partir de la 
ecuación (2.43) (de la sección 2.5) que 0; = a x/t. Debido a que X — Poisson(A1), se tiene a 
partir de la ecuación (4.11) que dx = At. Por consecuencia, 


Ox vVAt A 
O == = == 
Í Í 1 


En la práctica, no se conoce el valor de A, por lo que se puede aproximar con A. 


. ; A y O 
Si X — Poisson(A1) se estima la razón A con 4 = —. 
1 


m Ánoes sesgado. 
m La incertidumbre en A es 
A 


a=4/- (4.12) 


En la práctica se sustituye A por A en la ecuación (4.12), ya que no se conoce 2. 


Se saca una muestra de 5 mL de una suspensión, y se cuenta 47 partículas. Estime la media 
del número de partículas por mL y encuentre la incertidumbre en la estimación. 


Solución 
El número de partículas contadas es X = 47, El volumen extraído es £ = 5 mL. La media es- 
timada del número de partículas por mL es 


2 
A=— =09.4 
» 


La incertidumbre en la estimación es 


9.4 aproximando A con A = 9.4 
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La masa de cierta sustancia radiactiva emite partículas alfa a razón de A partículas por segun- 
do. Un físico cuenta 1 594 emisiones en 100 segundos. Estime A y determine la incertidum- 
bre en la estimación. 


Solución 
La estimación de Aes A = 1 594/100 = 15.94 emisiones por segundo. La incertidumbre es 
A 
05 =4/- 
si 1 
15.94 7 
=4/ DA? aproximando A con A = 15.94 
100 
= 0.40 


En el ejemplo 4.25, ¿durante cuántos segundos deben contarse las emisiones para reducir la 
incertidumbre a 0.3 emisiones por segundo? 


Solución 
Se desea encontrar el tiempo í para el cual 0; = y/A/t = 0.3. Del ejemplo 4.25, A = 15.94. 
Al sustituir este valor por A, se obtiene 


Al despejar f se tiene que £ = 177 segundos. 


Algunas veces se desea estimar una función (A) de una razón de Poisson A. Se estima 
FA) con AA). Después se puede emplear el método de propagación de errores (ecuación 3.10 
de la sección 3.3) para encontrar la incertidumbre en (A). 


El número de imperfecciones en una lámina de aluminio fabricada por determinado proceso 
sigue una distribución de Poisson. En una muestra de 100 m? de aluminio, se encuentran 200 
imperfecciones. Estime la probabilidad de que un metro cuadrado de aluminio no tenga im- 
perfecciones y determine la incertidumbre en la estimación. 


Solución 

Sea A el número promedio de imperfecciones por metro cuadrado. Se iniciará calculando 2 y 
su incertidumbre. Se ha observado que X = 200 imperfecciones en £ = 100 m? de aluminio. 
Por tanto, 2 = 200/100 = 2.00. La incertidumbre en Á es 


e 
05=4/- 
ó 1 
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2 é 
=4/— aproximando A con A = 2 
100 


= 0.1414 


Lo que se desea estimar es la probabilidad de que un metro cuadrado de aluminio no tenga 
imperfecciones. Primero se expresa la probabilidad como una función de A. Con este propó- 
sito, Y representa el número de imperfecciones en 1 m? de lámina de aluminio. Entonces, 
Y — Poisson(A). Se desea estimar P(Y = 0). Utilizando la función de masa de probabilidad 
de Poisson, esta probabilidad la da 

2470 


P(Y =0) = al =e? 


Por tanto, la probabilidad de que un metro cuadrado no tenga imperfecciones se estima con 
e? = ¿2% = 0,1353. Para encontrar la incertidumbre en la estimación, se emplea el méto- 


do de propagación de errores (ecuación 3.10). 


dos 
A ad Ox 
= Ho 


= ¿2%(0.1414) 
= 0.0191 


Para el caso de las partículas en suspensión, o eventos de decaimiento radiactivo, se co- 
nocen los principios fundamentales de la física que rigen estos procesos, donde basándose en los 
primeros principios, podría demostrarse que la distribución del número de eventos es de Pois- 
son. Existen muchos casos en los que la evidencia empírica sugiere que la distribución de 
Poisson es adecuada, pero las leyes que rigen los procesos no son comprendidas bien para rea- 
lizar una posible deducción rigurosa. Entre los ejemplos está el número de visitas a un sitio 
web, el número de accidentes de tráfico en una intersección y el número de árboles en una 
sección del bosque. 


Deducción de la media y la varianza de una variable aleatoria de Poisson 
Sea X — Poisson(A). Se demostrará que uz = A y 0% = A. Utilizando la definición de la 
media poblacional para una variable aleatoria discreta (ecuación 2.29 de la sección 2.4): 


=0) 
00 EN 
a A 
= xe a 
0 

=D) 


O A 
(0er) (5) +) xe o 


sl 
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09 Xx 


Ahora la sumatoria o ed) /x! es la suma de la función de masa de probabilidad de 
Poisson(A) sobre todos sus valores posibles. Por tanto, Y 7%, e7*2*/x! = 1, por lo que, 


ux=4 


Se emplea la ecuación (2.31) (de la sección 2.4) para demostrar que De =1. 
00 
a = Nite — Mx (4.13) 


Al sustituir x(x — 1) + x para x” y 2 para uy en la ecuación (4.13), se obtiene 


00 a 00 E 
DES DS 

o = ) x(x— DA + ) reta == (4.14) 
x=0 z x=0 a 


Ahora, x(x— 1) =0six=001,y)2,xe *4*/x! = uy = 4. Por consiguiente, se pue- 
de comenzar por sumar el lado derecho de la ecuación (4.14) en x = 2, y sustituir A por 
en So blene 


==) 
00 si 
—A 2 
= == 
ps =D a 
==) 
00 q 
[o,0) 
E E 
200) 
ME 


=4 
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Ejercicios para la sección 4.3 


1. Sea X — Poisson(4). Determine 5. El número de mensajes recibidos por el tablero computado 


a) PX=1) 
b) P(X =0) 
c) P(X< 2) 
d) P(X> 1) 
e) Ux 
F 5x 


. La concentración de partículas en una suspensión es 2 por 
mL. Se agita por completo la concentración, y posterior- 
mente se extraen 3 mL. Sea X el número de partículas que 
son retiradas. Determine 


a) P(X = 5) 
b) P(X <= 2) 
c) P(X> 1) 
d) px 
e) Tx 


. Suponga que 0.03% de los contenedores plásticos produci- 
dos en cierto proceso tiene pequeños agujeros que los dejan 
inservibles. X representa el número de contenedores en una 
muestra aleatoria de 10 000 que tienen este defecto. Deter- 
mine 

a) P(X = 3) 

b) P(X=2) 

cd) Pl1=X<4) 

d) px 


e) Tx 


. Uno de cada 5 000 individuos en una población porta cier- 
to gen defectuoso. Se estudia una muestra aleatoria de 1 000 
individuos. 


a) ¿Cuál es la probabilidad de que sólo uno de los indivi- 
duos de la muestra porte el gen? 


b) ¿Cuál es la probabilidad de que ninguno sea portador? 


c) ¿Cuál es la probabilidad de que más de dos individuos 
porte el gen? 


d) ¿Cuál es la media del número de individuos de la mues- 
tra que porta el gen? 


e) ¿Cuál es la desviación estándar del número de indivi- 
duos portadores de gen? 


de anuncios es una variable aleatoria de Poisson con una ra- 
zón media de ocho mensajes por hora. 


a) ¿Cuál es la probabilidad de que se reciban cinco mensa- 
jes en una hora? 


b) ¿Cuál es la probabilidad de que se reciban diez mensa- 
jes en 1.5 horas? 


c) ¿Cuál es la probabilidad de que se reciban menos de tres 
mensajes en 1% horas? 


. Cierto tipo de tablero de circuitos contiene 300 diodos. Ca- 


da uno tiene una probabilidad p = 0.002 de fallar. 


a) ¿Cuál es la probabilidad de que fallen exactamente dos 
diodos? 


b) ¿Cuál es la media del número de diodos que falla? 


c) ¿Cuál es la desviación estándar del número de diodos 
que falla? 


d) Un tablero funciona si ninguno de sus diodos falla. 
¿Cuál es la probabilidad de que funcione un tablero? 


e) Se envían cinco tableros a un cliente. ¿Cuál es la proba- 
bilidad de que cuatro o más de ellos funcione? 


. Una variable aleatoria X tiene una distribución binomial y 


una variable aleatoria Y tiene una distribución de Poisson. 
Tanto X como Y tienen medias iguales a 3. ¿Es posible de- 
terminar qué variable aleatoria tiene la varianza más gran- 
de? Elija una de las siguientes respuestas: 


i) Sí, X tiene la varianza más grande. 
ii) Sí, Y tiene la varianza más grande. 
iii) No, se necesita conocer el número de ensayos, n, para X. 


iv) No, se necesita conocer la probabilidad de éxito, p, pa- 
ra X. 


v) No, se necesita conocer el valor de A para Y. 


. Una química desea estimar la concentración de partículas 


que hay en determinada suspensión. Ella extrae 3 mL de la 
suspensión y cuenta 48 partículas. Estime la concentración 
de partículas por mL y determine la incertidumbre en la es- 
timación. 


. Una microbióloga quiere estimar la concentración de cierto 


tipo de bacteria en una muestra de agua tratada. Ella pone 
una muestra de 0.5 mL de agua tratada en el vidrio del mi- 
croscopio y descubre 39 bacterias. Estime la concentración 


10. 


11. 


12. 


de bacterias por mL, en esta agua tratada, y determine la in- 
certidumbre en la estimación. 


La abuela está probando una nueva receta de pan de pasas. 
En cada hornada de la masa de pan salen tres hogazas, y ca- 
da una tiene 20 rebanadas de pan. 


a) Si ella agrega 100 pasas a una hornada de masa, ¿cuál es 
la probabilidad de que una rebanada de pan elegida alea- 
toriamente no tenga pasas? 


b) Si ella agrega 200 pasas a una hornada de masa, ¿cuál es 
la probabilidad de que una rebanada de pan elegida alea- 


toriamente tenga cinco pasas? 


c) ¿Cuántas pasas debe agregar para que la probabilidad de 
que una rebanada elegida de forma aleatoria no tenga 
pasas sea 0.01? 


Mamá y la abuela están horneando, cada una, galletas de 
chispas de chocolate. Cada una le da dos galletas. Una de las 
galletas de mamá tiene 14 chispas de chocolate y la otra tie- 
ne 11. Las galletas de la abuela tienen seis y ocho chispas. 


a) Estime la media del número de chispas en una de las ga- 


lletas de mamá. 


b) Estime la media del número de chispas en una de las ga- 


lletas de la abuela. 


c) Determine la incertidumbre en la estimación de las ga- 
lletas de mamá. 


d 


<= 


Determine la incertidumbre en la estimación de las ga- 
lletas de la abuela. 


e) Estime cuántas chispas más en promedio tiene una ga- 
lleta de mamá en comparación con una galleta de la 
abuela. Determine la incertidumbre en la estimación. 


Usted ha recibido una masa radiactiva de la que se afirma 
tiene una media de la razón de decaimiento de al menos una 
partícula por segundo. Si la media de la razón de decai- 
miento es menor a una por segundo, usted puede regresar el 
producto para un reembolso. Sea X el número de eventos de 
decaimiento que se produce en diez segundos. 


a) Si la media de la razón de decaimiento es exactamente 
de una por segundo (de tal forma que la afirmación es 
verdad, pero apenas), ¿a qué es igual P(X <= 1)? 


b) Con base en la respuesta del inciso a), si la razón de de- 

caimiento promedio es de una partícula por segundo, 

¿un evento en diez segundos sería un número inusual- 

mente pequeño? 

c) Si usted encuentra un evento de decaimiento en diez se- 
gundos, ¿esto sería una evidencia de que debe regresar- 
se el producto? Explique. 


13. 


14. 
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d) Si la media de la razón de decaimiento es sólo de una 
por segundo, ¿a qué es igual P(X <= 8)? 

e) Con base en la respuesta del inciso (d), si la razón de de- 
caimiento promedio es de una partícula por segundo, 
¿ocho eventos en diez segundos sería un número inusual- 
mente pequeño? 

f) Si cuenta ocho eventos de decaimiento en diez segun- 
dos, ¿esto sería una evidencia de que debe regresarse el 


producto? Explique. 


Alguien afirma que cierta suspensión contiene al menos sie- 
te partículas por mL. Extrae una muestra de 1 mL de la so- 
lución. Sea X el número de partículas en la muestra. 


a) Si el número promedio de partículas es exactamente sie- 
te por mL (de manera que la afirmación es verdad, pero 
apenas), ¿a qué es igual P(X <= 1)? 


b) Con base en la respuesta del inciso (a), si la suspensión 
contiene siete partículas por mL, ¿una partícula en una 
muestra de 1 mL sería un número inusualmente pequeño? 
c) 


Si encuentra una partícula en la muestra, ¿esto sería una 
evidencia de que la afirmación es falsa? Explique. 


d 


= 


Si la media del número de partículas es exactamente 7 
por mL, ¿a qué es igual P(X <= 6)? 

e) Con base en la respuesta del inciso (d), si la suspensión 
contiene siete partículas por mL, ¿seis partículas en una 


muestra de 1 mL sería un número inusualmente pequeño? 


Y) 


Si cuenta seis partículas en la muestra, ¿esto sería una 
evidencia de que la afirmación es falsa? Explique. 


Un físico desea estimar la razón de emisiones de partículas 
alfa provenientes de cierta fuente. Él hace dos cuentas. Pri- 
mero mide la razón fondo contando el número de partículas 
que hay durante 100 segundos en ausencia de la fuente. 
Cuenta 36 emisiones de fondo. Después, con la fuente pre- 
sente, cuenta 324 emisiones en 100 segundos. Esto último 
representa la suma de las emisiones de la fuente más las 
emisiones de fondo. 


a) Estime la razón de fondo, en emisiones por segundo, y 
determine la incertidumbre en la estimación. 


b) Estime la suma de la fuente más la razón de fondo, en 
emisiones por segundo, y determine la incertidumbre en 
la estimación. 


c) Estime la razón de emisiones provenientes de la fuente 
en partículas por segundo, y determine la incertidumbre en 
la estimación. 


d) ¿Qué da como resultado una menor incertidumbre al es- 
timar la razón de emisiones provenientes de la fuente: 
(1) contar las partículas de fondo sólo durante 150 se- 
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gundos, así como las partículas de fondo, más las de la 100 segundos? Si es así, ¿cuánto tiempo puede medirse 
fuente durante 150 segundos, o (2) contar las partículas las partículas de la fuente más las de fondo? Si no, ex- 
de fondo durante 100 segundos, así como las de la fuen- plique por qué. 


te más las de fondo durante 200 segundos? Calcule la 
incertidumbre en cada caso. 


15. Con referencia al ejemplo 4.27, estime la probabilidad de 


¿Es posible reducir la incertidumbre a 0.03 partículas que en 1 m? de aluminio haya una imperfección y determi- 
por segundo si se mide la razón de fondo sólo durante ne la incertidumbre en la estimación. 


4.4 Algunas otras distribuciones discretas 


En esta sección se analizan diversas distribuciones discretas que son útiles en varias situaciones. 


La distribución hipergeométrica 


Cuando una población finita contiene dos tipos de unidades, que pueden ser denominados co- 
mo éxitos y fracasos, y se extrae una muestra aleatoria simple de la población, cada unidad 
representa un ensayo de Bernoulli. A medida que se selecciona cada unidad, la proporción de 
éxitos en la población restante disminuye o aumenta, dependiendo si la unidad extraída es 
un éxito o fracaso. Por esta razón, los ensayos no son independientes, de ahí que el número 
de éxitos en la muestra no siga una distribución binomial. En su lugar, la distribución que des- 
cribe adecuadamente el número de éxitos en esta situación se llama distribución hipergeo- 
métrica. 

Como ejemplo, suponga que se tiene un lote de 20 unidades que contiene seis que es- 
tán defectuosos, y que se extrae aleatoriamente cinco unidades de este lote. Sea X el número 
de unidades defectuosas en la muestra. Se calculará P(X = 2). Con este propósito, primero se 
cuenta el número total de los grupos diferentes de cinco unidades que puede extraerse de la 
población de 20. (Se hará referencia a cada grupo de cinco unidades como combinación.) El 
número de combinaciones de cinco unidades es el número de muestras diferentes que se pue- 
de extraer, y cada una es igualmente probable. Después se determinará cuántas de estas com- 
binaciones contienen exactamente dos defectuosas. La probabilidad de que una combinación 
de cinco unidades contenga sólo dos defectuosas es el cociente 


número de combinaciones de cinco unidades que contienen dos defectuosas 


Px=2) == _— : 7 > 
( ) número de combinaciones de cinco unidades que pueden seleccionarse entre 20 


En general, el número de combinaciones de k unidades que se puede elegir de un grupo de 
n unidades se denota por C ) y es igual a (véase la deducción de la ecuación 2.12 en la sec- 


ción 2.2) 
ny n! 
k) " kin—k)! 


Por tanto, el número de combinaciones de cinco unidades que se puede elegir entre 20 es 


20! 
cd CE E 
5)” 51005) 
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Para determinar el número de combinaciones de cinco que contienen sólo dos defectuosas, se 
describe la construcción de dicha combinación como una secuencia de dos operaciones. Pri- 
mero, se seleccionan dos unidades de las seis defectuosas; segundo, se seleccionan tres uni- 
dades de las 14 no defectuosas. El número de combinaciones de dos unidades seleccionadas 


entre seis es 
I 
¿E A 
2 21(6 — 2)! 


y el número de combinaciones de tres unidades elegidas de 14 es 


141 
pa E E 
3 31(14— 3)! 


Por tanto, el número total de combinaciones de cinco unidades que puede componerse de dos 


defectuosas y tres no defectuosas es el producto 6) E] = (15)364) = 5 460 (ésta es una 


aplicación del principio fundamental de conteo; véase la sección 2.2 para un análisis más de- 


tallado). Se concluye que 
2)(5) 
2)1 3 
P(X=2)= ION 
5 
5 460 


— 15 504 
= 0.3522 


Para calcular P(X = 2) en el ejemplo anterior, fue necesario conocer el número de unidades 
en la población (20), el de unidades defectuosas en la población (6) y el de unidades extraí- 
das (5). La función de masa de probabilidad de la variable aleatoria X se determina al utilizar 
estos tres parámetros. Específicamente, X tiene una distribución hipergeométrica con los pa- 
rámetros 20, 6 y 5, ello se denota mediante X — H(0, 6, 5). Ahora se generalizará esta idea. 


Suponga una población finita que contiene N unidades, de ellas R son clasificadas co- 
mo éxitos y N — R como fracasos. Suponga que se extrae n unidades de esta población, 
y sea X el número de éxitos en la muestra. Entonces X sigue la distribución hipergeomé- 
trica con los parámetros N, R y n, que se puede denotar como X — H(N, R, n). 


La función de masa de probabilidad de X es 


p(x)=P(X=x)= (Y) máx(0, R+n— N)<x< míní(n, R) 


n 
0 de otro modo (4.15) 
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De 50 edificios en un parque industrial, 12 no cumplen el código eléctrico. Si se seleccionan 
aleatoriamente diez edificios para inspeccionarlos, ¿cuál es la probabilidad de que exactamen- 
te tres de los diez no cumplan el código? 


Solución 
Sea X el número de edificios seleccionados que violan el código. Entonces, X — H(50, 12, 
10). Se debe determinar P(X = 3). Utilizando la ecuación (4.15), 


12) (38 
P(X =3)= o! 
=== 
10 
_ (220)(12 620 256) 
10272278 170 


= 0.2703 


Media y varianza de la distribución hipergeométrica 


En el recuadro siguiente se presenta la media y varianza de la distribución hipergeométrica. 
Se omiten sus deducciones. 


Si X — H(N, R, n), entonces 


MS (4.16) 


E e 
:S N NJIAN=1 O 


Ejemplo 


Con referencia al ejemplo 4.28 encuentre la media y la varianza de X. 


Solución 
X — H(50, 12, 10), por lo que 
(10,12) 
E S0 
= 2.4000 


A 12 12) (50-10 
o (5) (1 >) A ) 


= 1.4890 
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Comparación con la distribución binomial 


Una población de tamaño N contiene R éxitos y N — R fracasos. Imagine que se toma una 
muestra de n unidades de esta población con reemplazo; es decir, cada unidad de la muestra 
se regresará a la población después de ser extraída. Entonces, las unidades de la muestra son 
resultado de una secuencia de ensayos de Bernoulli independientes, y el número de los éxi- 
tos X en la muestra tiene una distribución binomial con n ensayos y probabilidad de éxito 
p = RÍN. 

En la práctica, rara vez se extraen muestras con reemplazo, debido a que no es necesa- 
rio extraer la misma unidad dos veces. En su lugar, el muestreo se realiza sin reemplazo, en 
el cual cada unidad es eliminada de la población después de que es extraída. Entonces, las uni- 
dades de la muestra son resultado de ensayos de Bernoulli dependientes, ya que la población 
cambia conforme se extrae cada unidad. Por esta razón, la distribución del número de éxitos, 
X, es H(N, R, n) en vez de Bin(n, R/N). 

Cuando el tamaño muestral n es pequeño en comparación con el tamaño de la pobla- 
ción N (es decir, no mayor a 5%), la diferencia entre el muestreo con o sin reemplazo es po- 
ca, y la distribución binomial Bin(n, R/N) es una buena aproximación de la distribución 
hipergeométrica H(N, R, n). Observe que la media de H(N, R, n) es nR/N, la misma que la de 
Bin(n, R/N). Esto último indica que sea que realice la muestra con o sin reemplazo, la propor- 
ción de éxitos de la muestra en promedio es la misma que la de éxitos de la población. La va- 
rianza de Bin(n, R/N) es n(RIN(A — R/N) y la varianza de H(N, R, n) se obtiene al multiplicar 
esto por el factor (V — nA(N — 1). Observe que cuando n es pequeña en relación con N, es- 
te factor se aproxima a 1. 


Distribución geométrica 

Suponga que se lleva a cabo una secuencia de ensayos de Bernoulli independientes, cada uno 
con la misma probabilidad de éxito p. Sea X el número de experimentos hasta incluir el pri- 
mer éxito. Por tanto, X es una variable aleatoria discreta, la cual tiene una distribución geo- 
métrica con parámetro p. Se expresa como X — Geom(p). 


Una prueba de resistencia de soldadura consiste en poner carga en uniones soldadas hasta que 
se dé una ruptura. Para cierto tipo de soldadura, 80% de las rupturas ocurre en la propia sol- 
dadura, mientras que otro 20% se da en las vigas. Se prueba cierto número de soldaduras. Sea 
X el número de pruebas, incluyendo la primera prueba que da como resultado la ruptura de la 
viga. ¿Cuál es la distribución de X? 


Solución 

Cada prueba es un ensayo de Bernoulli, con un éxito definido como la ruptura de una viga. 
Por consiguiente, la probabilidad de éxito es p =0.2. El número de ensayos incluyendo al 
primer éxito tiene una distribución geométrica con parámetro p =0.2. Por consecuencia, 
X — Geom(0.2). 
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Con referencia al ejemplo 4.30, determine P(X = 3). 


Solución 
El evento X = 3 ocurre cuando los primeros dos ensayos resultan en fracaso y el tercer expe- 
rimento en éxito. De ahí que 


P(X = 3) = P(FFS) 
= (0.8)(0.8)(0.2) 
= 0.128 


El resultado del ejemplo 4.31 se puede generalizar para generar la función de masa de 
probabilidad de una variable aleatoria geométrica. 


Si X — Geom(p), entonces la función de masa de probabilidad de X es 


p(l= py a 
p(x) = P(X=x) = 
0 de otro modo 


Media y varianza de una distribución geométrica 


En el siguiente recuadro se muestra la media y varianza de la distribución geométrica. Sus de- 
ducciones requieren de la manipulación de series infinitas y se omiten. 


Si X — Geom(p), entonces 


(4.18) 


2 (4.19) 


Con referencia al ejemplo 4.30, sea X el número de pruebas hechas incluyendo la primera rup- 
tura de la viga. Determine la media y la varianza de X. 


Solución 
Puesto que X — Geom(p), ux = 1/0.2 = 5, y 0; = (1 — 0.29/(0.2?) = 20. 


La distribución binomial negativa 


La distribución binomial negativa constituye una extensión de la distribución geométrica. Sea 
r un entero positivo. Suponga que se realizan ensayos de Bernoulli independientes, cada uno 


E jemplo 
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con probabilidad de éxito p, y X representa el número de ensayos hasta incluir al r-ésimo éxi- 
to. Por consecuencia, X tiene una distribución binomial negativa con parámetros r y p. Se 
expresa como X — NB(7, p). 


(Continuación del ejemplo 4.30.) En una prueba de fuerza de soldadura, 80% de las pruebas 
da como resultado ruptura de la soldadura, mientras que otro 20% propicia ruptura de la vi- 
ga. Sea X el número de pruebas incluyendo la tercera ruptura de la viga. ¿Cuál es la distribu- 
ción de X? Determine P(X = 8). 


Solución 

Dado que X representa el número de ensayos incluyendo al tercer éxito, y puesto que la pro- 
babilidad de éxito es p = 0.2, X — NB(3, 0.2). Se calculará P(X = 8) y el método de cálcu- 
lo conducirá a una deducción de la función de masa de probabilidad de una variable aleatoria 
binomial negativa. Debido a que X — NB(3, 0.2), el evento X = 8 significa que el tercer éxito 
se presentó en el octavo ensayo. Otra forma de decir esto es que hubo exactamente dos éxi- 
tos en los primeros siete ensayos y el octavo ensayo fue un éxito. En virtud de que todos los 
experimentos son independientes, se tiene que 


P(X = 8) = P(sólo dos éxitos en los primeros siete ensayos)P(éxitos en el octavo ensayo) 


Ahora el número de éxitos en los primeros siete ensayos tiene una distribución Bin(7, 0.2), 
por lo que 


P(exactamente dos éxitos en los primeros siete ensayos) = (2) (0.2)*(0.8) 


La probabilidad de que el octavo ensayo (o cualquier otro experimento) dé como resultado un 
éxito es 0.2. Por tanto, 


P(X =8)= e (0.2)2(0.8)(0.2) 
= (2) (0.2)*(0.8) 
= 0.05505 


Se generaliza el resultado del ejemplo 4.33 para construir la función de masa de proba- 
bilidad de una variable aleatoria binomial negativa. 


Si X — NB(r, p), entonces la función de masa de probabilidad de X es 


( 
p)=P(X=x)=4 Y 


10) de otro modo 


ra E = RPP 0. 
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Observe que el valor posible más pequeño de X es r, ya que se requiere al menos r en- 
sayos para producir r éxitos. Observe que cuando r = 1, la distribución binomial negativa es 
la misma que la distribución geométrica. En símbolos, NB(1, p) = Geom(p). 


Una variable aleatoria binomial negativa constituye 
una suma de variables aleatorias geométricas 


Suponga que una secuencia de ocho ensayos de Bernoulli independientes, cada uno con pro- 
babilidad de éxito p, aparece de la siguiente manera: 


FFSFSFEFES 


Si X es el número de ensayos incluyendo al tercer éxito, entonces X — NB(3, p), y para esta 
secuencia de experimentos, X = 8. Se denota el número de ensayos incluyendo al primer éxi- 
to por Y,. Para esta secuencia, Y, = 3, pero en general Y, — Geom(p). Ahora se comienza a 
contar, empezando desde el primer ensayo después del primer éxito, incluyendo al segundo 
éxito. Este número de ensayos se representa con Y). Para esta secuencia Y, = 2, pero en ge- 
neral Y, — Geom(p). Finalmente, se cuenta el número de ensayos, a partir del primer ensayo 
después del segundo éxito, incluyendo al tercero. Yz denota el número de ensayos. Para esta 
secuencia Y, = 3, pero nuevamente, en general, Y; — Geom(p). Es claro que X= Y, + Y) + 
Y. Más aún, puesto que los experimentos son independientes, Y,, Y, y Yz también lo son. Es- 
to demuestra que si X — NB(3, p), entonces X es la suma de tres variables aleatorias indepen- 
dientes Geom(p). Este resultado se puede generalizar para cualquier entero positivo r. 


Si X — NB(r, p), entonces 


X= Vik pY 


donde Y,,..., Y, son variables aleatorias independientes, cada una con distribución 
Geom(p). 


Media y varianza de la distribución negativa binomial 


Si X — NB(r, p), entonces X = Y, + - - + + Y,, donde Y,,..., Y, son variables aleatorias in- 
dependientes, cada una con distribución Geom(p). De ahí que la media de X sea la suma de 
las medias de las Y, y la varianza de X sea la suma de las varianzas. Cada Y, tiene una media 
1/p y varianza (1 — p)/p?. Por consiguiente, uy = r/p y 0% =r(1 — plp?. 


Si X — NB(r, p), entonces 


Ejemplo 
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Con referencia al ejemplo 4.33, determine la media y la varianza de X, donde X representa el 
número de pruebas incluyendo la tercera ruptura de la viga. 


Solución 
Dado que X — NB(3, 0.2), se tiene que 


3 
=— =15 
o 
341 —0.2) 
2_ ee 
Ox = > 60 


Distribución multinomial 


Un ensayo de Bernoulli representa un proceso que tiene dos posibles resultados. Una genera- 
lización del ensayo de Bernoulli constituye el experimento multinomial, que es un proceso 
con k resultados, donde k = 2. Por ejemplo, el lanzamiento de un dado es un experimento mul- 
tinomial, con seis posibles resultados: 1, 2, 3, 4, 5, 6. Cada resultado de un experimento multi- 
nomial tiene una probabilidad de ocurrir. Las probabilidades de los k resultados se representan 


como pj, . . ., Pz Por ejemplo, en el lanzamiento de un dado, p; = p, =*** =p = 1/6. 
Ahora suponga que se realizan n experimentos independientes multinomiales, cada uno 
con los mismos k resultados posibles y con las mismas probabilidades p;, .. ., p;. Se enume- 
ran los resultados 1, 2,..., k. Para cada resultado ¡, X; representa el número de ensayos que 
tiene ese resultado. Entonces X,, ..., X, son variables aleatorias discretas. La colección 
Xi, ..., Xz tiene una distribución multinomial con parámetros n, p;, ... . , pj. Se expresa co- 
mo X;,...,X, — MN(n, pj, . . . , px). Observe que toda la colección X,,..., X, sigue la dis- 


tribución multinomial, en vez de sólo una X,. 


Se inspeccionan las unidades producidas por una línea de ensamble, y se clasifica cada una 
como correspondiente (aceptable), inferior o rechazada. En general, 70% de las unidades son 
correspondientes, 20% son inferiores y 10% rechazadas. Suponga que se selecciona de forma 
independiente y aleatoria cuatro unidades. Sean X,, X,, X; los números entre los cuatro even- 
tos correspondientes inferiores y rechazados, respectivamente. ¿Cuál es la distribución de X,, 
X», X3? 


Solución 

Cada unidad es un ensayo multinomial con tres posibles resultados: correspondiente, inferior 
y rechazada. Las probabilidades asociadas con los resultados son p, = 0.7, p, = 0.2 y p3 = 
0.1. Las variables aleatorias X,, X,, Xz se refieren a los números de cada resultado en los cua- 
tro ensayos independientes. Por tanto, X,, X,, Xz — MN(4, 0.7, 0.2, 0.1). 


Para mostrar cómo se calculan las probabilidades de variables aleatorias multinomiales, 
se calculará P(X, = 2, X, = 1 y X; = 1), en la que X,, X,, X; se definieron en el ejemplo 4.35. 
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Esto último conduce a una deducción de la función de masa de probabilidad multinomial. Se 
comenzará por observar que hay 12 arreglos de dos correspondientes (C), una inferior (D) y 
una rechazada (R) entre los cuatro resultados. Aquí se enlistan. 


CCDR CCRD CDCR CDRC CRCD CRDC 
DCCR DCRC DREC RCCD RCDC RDCC 


Cada uno de estos 12 arreglos es igualmente probable. Se calcula la probabilidad de CCDR. 
El evento CCDR es una secuencia de cuatro resultados: C en el primer ensayo, C en el segun- 
do, D en el tercero y R en el cuarto. Dado que los ensayos son independientes, la probabili- 
dad de la secuencia de resultados es igual al producto de cada una de sus probabilidades. 


P(CCDR) = (0.7)(0.7)(0.21(0.1) = (0.7)(0.2)(0.1) 


Puesto que cada uno de los 12 arreglos tiene la misma probabilidad, 


P(X, =2,X,=1,X,= 1) = (1200.77(0.20.1) = 0.1176 


En este cálculo, el número de arreglos era pequeño para contarlos al enlistarlos a todos. En 
general, para calcular probabilidades como ésta, se necesita una fórmula. Esta última se en- 
cuentra en el siguiente recuadro. En la sección 2.2 se presenta una deducción. 


Suponga que se llevan a cabo n experimentos independientes, cada uno tiene k resul- 
tados posibles. Sean x;, ... , x, el número de ensayos con resultados 1, 2,..., k, res- 
pectivamente. El número de arreglos de los resultados entre los n ensayos es 

n! 


x1!1xo!---xgl 


Ahora, se puede especificar la función de masa de probabilidad multinomial. 


SiX¡,..., X, - MN(n, pj, .. ., py), entonces la función de masa de probabilidad de 
CAES) 
llo oo) = PO = Ho oca y A = 30) 
n! e 
rra PPP 011,2... 
DA AS Ll 
= 1-42 k E 
0 de otro modo 


Observe que la distribución multinomial difiere de las otras distribuciones en que estudia di- 
versas variables aleatorias simultáneamente. Este hecho se expresa al afirmar que plx;, ..., 
xp) es la función de masa de probabilidad conjunta de X,,..., X,. La sección 2.6 analiza 
con más profundidad las funciones de masa de probabilidad conjunta. 
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La alcaptonuria es una enfermedad genética que se caracteriza por carencia de una enzima ne- 
cesaria para metabolizar al ácido homogentísico. Algunas personas son portadores de aquélla, 
lo cual significa que no tienen la enfermedad, sino que pueden transmitirla potencialmente a 
sus hijos. De acuerdo con las leyes de la herencia genética, un hijo, cuyos padres son portado- 
res de alcaptonuria, tiene probabilidad de 0.25 de no tener la enfermedad, 0.5 de ser portador 
y 0.25 de padecer la enfermedad. En una muestra de diez hijos de portadores de la alcaptonu- 
ria, ¿cuál es la probabilidad de que tres no la tengan, cinco sean portadores y dos la padezcan? 


Solución 

Sean X,, X,, Xz los números entre los diez hijos que no tienen la enfermedad, son portadores 
y la padecen, respectivamente. Entonces X,, X,, Xz — MNC(10, 0.25, 0.50, 0.25), por lo que de 
la ecuación (4.22) se tiene que 


10! 
P(X¡=3,X2=5,X3=2)= 315121 0.25)*(0.50)*(0.25)” 


= (2 520)(0.015625)(0.03125)(0.0625) 


= 0.07690 


Algunas veces sólo se desea concentrar en uno de los posibles resultados de un experi- 
mento multinomial. En esta situación, se puede considerar el resultado de interés como “éxi- 
to”, y cualquier otro resultado como “fracaso”. De este modo, es posible ver que el número 
de ocurrencias de cualquier resultado particular tiene una distribución binomial. 


S1X¡,..., Xy - MN(n, pj, . . . > pr), entonces para cada ¡ 


X¡ — Bin(n, p;) 


Con referencia al ejemplo 4.36, determine la probabilidad de que sólo cuatro de los diez hi- 
jos no padezcan la enfermedad. 


Solución 
Sea X el número de hijos que no tiene la enfermedad en una muestra de diez. Entonces 
X — Bin(10, 0.25); por tanto, 


P(X=4M= a 025105) 


= 0.1460 
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Ejercicios para la sección 4.4 


1. 


7. 


Quince automóviles son llevados a una concesionaria para 
validar su garantía. Suponga que cinco presentan graves 
problemas de motor, mientras que diez tienen problemas sin 
importancia. Se eligen aleatoriamente seis automóviles pa- 
ra componerlos. ¿Cuál es la probabilidad de que dos tengan 
graves problemas? 


. Un cargamento contiene 40 elementos. Se seleccionará de 


forma aleatoria y se probará cinco elementos. Si dos o más 
están defectuosos, se regresará el cargamento. 


a) Si, de hecho, el cargamento contiene cinco elementos 
defectuosos, ¿cuál es la probabilidad de que sean acep- 
tados (no regresados)? 


b) Si, de hecho, el cargamento contiene diez elementos de- 
fectuosos, ¿cuál es la probabilidad de que se regresen? 


. La probabilidad de que una computadora que corre cierto 


sistema operativo se descomponga en determinado día es de 
0.1. Determine la probabilidad de que la máquina se des- 
componga por primera vez en el duodécimo día, después de 
la instalación del sistema operativo. 


. Un semáforo localizado en cierta intersección está en verde 


50% de las veces, en ámbar 10% y en rojo 40%. Un auto- 
móvil pasa por esta intersección una vez al día. Sea X el nú- 
mero de días que ha transcurrido, incluyendo la primera vez 
que el automóvil se topa con una luz roja. Suponga que ca- 
da día representa un experimento independiente. 


a) Determine P(X = 3). 
b) Determine P(X <= 3). 
c) Determine uy. 


d) Determine T% 


Con referencia al ejercicio 4. Sea Y el número de días inclu- 
yendo el tercer día en que se topa con una luz roja. 


a) Determine P(X = 7). 
b) Determine uy. 


: 2 
c) Determine dx. 


. Con referencia al ejercicio 4, ¿cuál es la probabilidad de 


que en una secuencia de diez días, se haya encontrado con 
cuatro luces verdes, una ámbar y cinco rojas? 


Si X — Geom(p), ¿cuál es el valor más probable de X? 
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DO 

id Up 

iii) p 

iv) 1 

v) (1 pp? 


. Un proceso que llena paquetes se detiene cada vez que se 


detecta uno cuyo peso no cumple la especificación. Supon- 
ga que cada paquete tiene probabilidad de 0.01 de no cum- 
plir con la especificación y que los pesos de los paquetes 
son independientes. 


a) Determine el número promedio de paquetes que será lle- 
nado antes de que se detenga el proceso. 


b) Determine la varianza del número de paquetes que será 
llenado antes de que se detenga el proceso. 


c) Suponga que el proceso no se detendrá hasta que se de- 
tecten cuatro paquetes, cuyo peso no cumpla con la espe- 
cificación. Determine la media y la varianza del número 
de paquetes que será llenado antes de que se detenga el 
proceso. 


. En un lote de diez microcircuitos, tres están defectuosos. Se 


elige aleatoriamente cuatro microcircuitos para ser proba- 
dos. Sea X el número de circuitos probados que son defec- 
tuosos. 


a) Determine P(X = 2). 
b) Determine px. 


c) Determine (dx. 


. De los clientes que ordenan cierto tipo de computadora per- 


sonal, 20% ordena una tarjeta gráfica actualizada, 30% me- 
moria extra, 15% ordena tanto una tarjeta gráfica actuali- 
zada como memoria extendida, y 35% no ordena ninguna. 
Se eligen de forma aleatoria quince órdenes. Sea X, X», X3, 
X4, los respectivos números de órdenes en las cuatro catego- 
rías dadas. 


a) Determine P(X, = 3, X) 
b) Determine P(X, = 3). 


4,X, =2yX,= 6). 


. Cierta marca de automóvil viene equipada con un motor en 


uno de cuatro tamaños (en litros): 2.8, 3.0, 3.3, o 3.8. El 
10% de los clientes ordena el motor de 2.8 litros, 40% de 
3.0, 30% de 3.3 y 20% de 3.8. Se selecciona una muestra 
aleatoria de 20 órdenes para una auditoría. 
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a) ¿Cuál es la probabilidad de que el número de órdenes ratura real 10% de las veces, y lecturas mayores a 0.1*C por 
para los motores de 2.8, 3.0, 3.3 y 3.8 litros sean 3, 7, 6 debajo de la temperatura real 20% de las veces. 
y 4, respectivamente? 

b) ¿Cuál es la probabilidad de que haya más de diez órde- a) En una serie de diez lecturas independientes, ¿cuál es la 
nes de los motores de 3.0 litros? probabilidad de que cinco se encuentren dentro de 0.1%C 


de la temperatura real, dos a más de 0.1*C por encima de 


12. Un termopar localizado dentro de cierto medio produce lec- ella, y tres a más de 0.19C debajo de dicho parámetro? 


turas con margen de 0.1*C de la temperatura real 70% de b) ¿Cuál es la probabilidad de que más de ocho lecturas se 
las veces, lecturas mayores a 0.1*C por encima de la tempe- encuentren dentro de 0.1*C de la temperatura real? 


4.5 Distribución normal 


La distribución normal (también conocida como distribución de Gauss) es la distribución 
más utilizada en la estadística. Constituye un buen modelo para muchas, aunque no para to- 
das las poblaciones continuas. Parte de esto último se debe al teorema del límite central, que 
se analizará en la sección 4.10. 

La distribución normal es continua en vez de discreta. La media de una variable aleato- 
ria normal puede tener cualquier valor y la varianza cualquier valor positivo. La función de 
densidad de probabilidad de una variable aleatoria normal con media yu y varianza o” está da- 


da por á 
n= —_ CA (4.23) 


Al final de esta sección se comprueba el hecho de que y y a” son la media y la varian- 
za, respectivamente. Si X es una variable aleatoria cuya función de densidad de probabilidad 
es normal con media y y varianza a”, se expresa como X — Nu, 0). 


SiX — N(u, 97), entonces la media y la varianza de X están dadas por 


py =p 
y 
Cx=C 


La figura 4.4 presenta una gráfica de la función de densidad de probabilidad normal con 
media yu y desviación estándar o. Algunas veces a la función de densidad de probabilidad nor- 
mal se le llama curva normal. Observe que ésta es simétrica alrededor de uu, de tal forma que 
p representa la mediana, así como la media. También, toda población normal se caracteriza por 


MH Aproximadamente 68% de la población se encuentra en el intervalo u + a. 
MH Aproximadamente 95% de la población se encuentra en el intervalo u + 20. 
E Aproximadamente 99.7% de la población se encuentra en el intervalo y + 30. 


La proporción de una población normal que se encuentra a cierto número de desviacio- 
nes estándar de la media es la misma en cualquier población normal. Por esta razón, cuando 
se trabaja con poblaciones normales, se convierte las unidades en las cuales se midió origi- 
nalmente las unidades de la población a unidades estándar. Estas últimas indican a cuántas 
desviaciones estándar se encuentra un dato de la media poblacional. 
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= 99.7% 


= 95% 


> 
1 
1 
1 
1 
1 
1 
I 
1 
1 
1 
1 
U 
1 
I 


A 


p=3%30 p=20 plo 17 p+lo up+2o  p+30 


FIGURA 4.4 Función de densidad de probabilidad de una variable aleatoria normal con 
media y y varianza 07. 


Suponga que la estatura en una población de mujeres sigue una curva normal con media 4 = 
64 pulgadas y desviación estándar o = 3 pulgadas. La estatura de dos mujeres elegidas alea- 
toriamente es de 67 y 62 pulgadas, respectivamente. Convierta estas estaturas a unidades es- 
tándares. 


Solución 

Una estatura de 67 pulgadas es tres pulgadas mayor que la media de 64, y tres pulgadas es 
igual a una desviación estándar. Por tanto, 67 pulgadas es una desviación estándar mayor que 
la media y equivalente a una unidad estándar. Una estatura de 62 pulgadas es 0.67 desviacio- 
nes estándar menor que la media, por lo que 62 pulgadas es equivalente a — 0.67 unidades 
estándar. 


En general, se convierte a unidades estándar al restar la media y dividir entre la desvia- 
ción estándar. Por consiguiente, si x es una unidad seleccionada de una población normal con 
A : 2 . 2 . 4 
media uu y varianza o”, la unidad estándar equivalente a x es el número z, donde 


xp 
(04 


z= (4.24) 
Algunas veces, al número z se le denomina “puntaje z” de x, que representa un elemento ex- 
traído de una población normal con media O y desviación estándar 1. A aquélla se le llama 
población normal estándar. 


Las láminas de aluminio utilizadas para fabricar latas de bebida tienen un espesor (en milési- 
mas de pulgada) que se distribuye normalmente con una media de 10 y desviación estándar 
de 1.3. Una lámina particular tiene un espesor de 10.8 milésimas de pulgadas. Determine el 
puntaje z. 


Solución 
La cantidad 10.8 es un dato de una población normal con media uu = 10 y desviación están- 
dar ar = 1.3. Por consecuencia, 


Ejemplo 
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Con referencia al ejemplo 4.39, el espesor de cierta lámina tiene un puntaje z de — 1.7. Deter- 
mine el espesor de la lámina en las unidades originales en milésimas de pulgada. 


Solución 


Usando la ecuación (4.24), sustituyendo —1.7 para z y despejando x. Se obtiene 


x—10 
1.3 


=11= 


Al despejar x se obtiene x = 7.8. La lámina tiene un espesor de 7.8 milésimas de pulgada. 


La proporción de una población normal que se encuentra dentro de un intervalo espe- 
cífico es igual al área que se encuentra debajo de la densidad de probabilidad normal en di- 
cho intervalo. Esto último sugiere que dichas proporciones se calculan al integrar la densidad 
de probabilidad normal dada en la ecuación (4.23). Lo que es muy interesante es que las áreas 
debajo de esta curva no pueden determinarse mediante el método, enseñado en cálculo ele- 
mental, de encontrar la integral de la función y colocar los límites de integración. Lo anterior 
se debe a que la integral de esta función es una serie infinita y no puede escribirse con exac- 
titud. En su lugar, las áreas debajo de esta curva deben aproximarse numéricamente. 

Las áreas debajo de la curva normal estándar (media O, varianza 1) se han tabulado ex- 
tensivamente. Una tabla común, denominada tabla normal estándar, o tabla z, es la tabla 
A.2 (en el Apéndice A). Para determinar las áreas debajo de una curva normal con diferentes 
media y varianza, se convierten a unidades estándares y se utiliza la tabla z. La tabla A.2 pro- 
porciona las áreas en la cola izquierda de la curva para valores de z. Es posible calcular otras 
áreas al sustraer o usando el hecho de que el área total debajo de la curva es igual a 1. Ahora 
se presentan diversos ejemplos para mostrar el uso de la tabla z. 


Determine el área debajo de la curva normal a la izquierda de z = 0.47, 


Solución 
De la tabla z, el área es de 0.6808. Véase la figura 4.5. 


0.6808 


] 
0 0.47 


FIGURA 4.5 Solución al ejemplo 4.41. 
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Determine el área debajo de la curva normal y a la derecha de z = 1.38. 


Solución 
De la tabla z, el área a la izquierda de z = 1.38 es de 0.9162. Por tanto, el área a la derecha 
es 1 — 0.9162 = 0.0838. Véase la figura 4.6. 


0.9162 0.0838 


0 1.38 


FIGURA 4.6 Solución al ejemplo 4.42. 


Determine el área debajo de la curva normal entre z = 0.71 y z = 1.28. 


Solución 

De la tabla z, el área a la izquierda de z = 1.28 es de 0.8997, El área a la izquierda de z = 
0.71 es de 0.7611. Por consiguiente, el área entre z = 0.71 y z = 1.28 es 0.8997 — 0.7611 = 
0.1386. Véase la figura 4.7. 


0.8997 0.7611 0.1386 


l 
0 1.28 0 0.71 0 0.71 1.28 


FIGURA 4.7 Solución al ejemplo 4.43. 


Ejemplo 
¿A qué puntaje z corresponde el 750. percentil de una curva normal? ¿El 250. percentil? ¿La 
mediana? 


Solución 

Para responder esta pregunta se utiliza al revés la tabla z. Se necesita encontrar el puntaje z 
para el que 75% del área de la curva está a la izquierda. A partir del contenido de la tabla, el 
área más cercana a 75% es 0.7486, correspondiente al puntaje z de 0.67. Por tanto, el 750. 
percentil es aproximadamente de 0.67. Por simetría de la curva, el 250. percentil es z = —0.67 
(esto también puede verse directamente en la tabla). Véase la figura 4.8. La mediana es z = 0. 


E jemplo 


4.5 Distribución normal 235 


= 75% = 25% 


í í 
0 0.67 0.67 0 


FIGURA 4.8 Solución al ejemplo 4.44. 


Los tiempos de vida de las baterías en cierta aplicación se distribuyen normalmente con me- 
dia de 50 horas y desviación estándar de cinco horas. Determine la probabilidad de que se eli- 
ja aleatoriamente una batería que dure entre 42 y 52 horas. 


Solución 

Sea X el tiempo de vida de una batería elegida aleatoriamente. Entonces X — N(50, 57). La fi- 
gura 4.49 muestra la función de densidad de probabilidad de la población N(50, 57). El área 
sombreada representa P(42 < X < 52), la probabilidad de que una batería seleccionada de 
forma aleatoria tenga una duración entre 42 y 52 horas. Para calcular esta área, se hará uso de 
la tabla z. Primero se necesita convertir las cantidades 42 y 52 a unidades estándar. Se tiene 


E 5 


= 0.40 


4250 52 — 50 
5 5 


De la tabla z, el área a la izquierda de z = —1.60 es 0.0548, y el área a la izquierda de z = 
0.40 es 0.6554. La probabilidad de que una batería tenga tiempo de vida entre 42 y 52 horas 
es 0.6554 — 0.0548 = 0.6006. 


0.6006 


| 
42 50 52 
z=-1.6 z=0.4 


FIGURA 4.9 Solución al ejemplo 4.45. 


Con referencia al ejemplo 4.45, determine el 400. percentil de los tiempos de vida de las ba- 
terías. 


Solución 

De la tabla z, el área más cercana a 0.4000 es 0.4013, correspondiente al puntaje z de —0.25. 
La población de los tiempos de vida tiene una media de 50 y una desviación estándar de 5. El 
400. percentil es el punto 0.25 desviaciones estándar menor a la media. Este valor se deter- 
mina al convertir el puntaje z en uno nuevo, utilizando la ecuación (4.24): 
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x—50 
5 


0.25 = 


Al despejar x se tiene que x = 48.75. El 400. percentil de los tiempos de vida de las baterías 
es de 48.75 horas. Véase la figura 4.10. 


= 40% 


| 
48.75 50 
z=-—0,25 


FIGURA 4.10 Solución al ejemplo 4.46. 


Un proceso fabrica cojinetes de bolas cuyos diámetros se distribuye normalmente con media 
de 2.505 cm y desviación estándar de 0.008 cm. Las especificaciones requieren que el diáme- 
tro esté dentro del intervalo 2.5 + 0.01 cm. ¿Qué proporción de cojinetes de bolas cumple con 
la especificación? 


Solución 
Sea X el diámetro de un cojinete de bolas seleccionado aleatoriamente. Entonces X — 
N(2.505, 0.008?). La figura 4.11 presenta la función de densidad de probabilidad de la pobla- 
ción N(2.505, 0.008?). El área sombreada representa P(2.49 < X < 2,51), que es la propor- 
ción de cojinetes de bolas que cumplen con la especificación. 

Se calcula los puntajes z de 2,49 y 2.51: 


2.49 — 2.505 2.51 — 2.505 
z= = —1.88 Z= — Ano 7 


0.008 =— o A 


El área a la izquierda de z = —1.88 es 0.0301. El área a la izquierda de z = 0.63 es 0.7357. 
El área entre z = 0.63 y z = — 1.88 es 0.7357 — 0.0301 = 0.7056. Aproximadamente 70.56% 
de los diámetros satisface la especificación. 


0.7056 
| 
2.49 2.505 2.51 
z=—1.88 z=0.63 


FIGURA 4.11 Solución al ejemplo 4.47. 


Ejemplo 


4.48 
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Con referencia al ejemplo 4.47, el proceso puede recalibrarse para que la media sea igual a 
2.5 cm, el centro del intervalo de la especificación. La desviación estándar del proceso sigue 
siendo de 0.008 cm. ¿Qué proporción de los diámetros satisface la especificación? 


Solución 

El método de solución es el mismo que en el ejemplo 4.47. La media es de 2.500 en vez de 
2.505. Los cálculos se realizan de la siguiente manera: 

2.49 -2.50 201 = 2.30 


lid a A 
0.008 2, E 0.008 a 


El área a la izquierda de z = — 1.25 es 0.1056. El área a la izquierda de z = 1.25 es 0.8944, 
El área entre z = 1.25 y z = — 1.25 es 0.8944 — 0.1056 = 0.7888. Véase la figura 4.12. El 
recalibrado aumenta a 78.88% la proporción de diámetros que satisface la especificación. 


0.7888 
| 
2.49 2.50 2.51 
z=-1.25 z=1.25 


FIGURA 4.12 Solución al ejemplo 4.48. 


Con referencia a los ejemplos 4.47 y 4.48, suponga que se ha recalibrado el proceso de tal for- 
ma que la media del diámetro mide ahora 2.5 cm. ¿A qué valor debe reducirse la desviación 
estándar para que 95% de los diámetros satisfaga la especificación? 


Solución 

El intervalo de especificación es 2.49 — 2.51 cm. Se debe encontrar un valor de d para que 
este intervalo abarque 95% de la población de diámetros de cojinetes de bolas. Véase la figu- 
ra 4.13. El puntaje z que tiene 2.5% del área a la izquierda es z = — 1.96. El puntaje z que 
tiene 2.5% del área a su derecha es z = 1.96 (esto último se obtiene de la simetría de la cur- 
va). De ahí que el límite menor de la especificación, 2,49, tenga un puntaje z de —1.96, mien- 
tras que el límite superior de 2.51 tiene un puntaje z de 1.96. Cualesquiera de estos hechos se 
puede utilizar para encontrar a O. De la ecuación (4.24), 


2.51 — 2.50 
1.96 = ————— 
O 


Al despejar a se tiene que ar = 0.0051 cm. 
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= 95% 


2.49 2.50 2.31 
z=-—1.96 z=1.96 


FIGURA 4.13 Solución al ejemplo 4.49. Si a = 0.0051, entonces 95% de la población 
estará entre 2.49 y 2.51. 


Estimación de los parámetros de una distribución normal 


Los parámetros yu y a de una distribución normal representan su media y varianza, respecti- 
vamente. Por tanto, si X;,..., X, son una muestra aleatoria de una distribución N(u, 0), p 
se estima con la media muestral X y 9? se estima con la varianza muestral s?. Al igual que 
con cualquier otra media, la incertidumbre en X es o/./n, que será reemplazada con s/n 
si no se conoce a dr. Además, uy = pu, por lo que X es un estimador no sesgado de y. 


Combinaciones lineales de variables aleatorias 
independientes normales 


Una de las características más notables de la distribución normal consiste en que las combi- 
naciones lineales de variables aleatorias independientes normales son en sí mismas variables 
aleatorias. Para ser más específico, suponga que X, — N(u;, oo, X> — Nu», 07), O. 
NU 9?) son variables aleatorias independientes normales. Observe que las medias y varian- 
zas de estas variables aleatorias pueden diferir entre sí. Sean c;, C», .. ., Cc, constantes. Enton- 
ces, la combinación lineal c,X, + c,X, + : + + + c,X, es una variable aleatoria distribuida 
normalmente. La media y la varianza de la combinación lineal son cu; + C7M) + *** + Cy, 
y cia + dE ua A cio?, respectivamente (véanse las ecuaciones 2.49 y 2.53 en la sec- 
ción 2.5). 


Sean X;, X», .. ., X, independientes y distribuidas normalmente con medias uy, 

Mo, +...» Mn y Varlanzas a, 0 Só a?. Sean Cj, Ca, . . . , C, Constantes, y sea 

C¡X| + c2X) + ++: + Cc,X, una combinación lineal, entonces 

aX + ox) +0 +cX, Nc + CM) +0 + Cp a+ car ++. +eao?) 
(4.25) 


En el artículo “Advances in Oxygen Equivalent Equations for Predicting the Properties of 
Titanium Welds” (D. Harwig, W. Ittiwattana y H. Castner, en The Welding Journal, 2001: 
126s-136s), los autores proponen una ecuación de equivalencia al oxígeno para predecir la re- 


4.5 Distribución normal 239 


sistencia, ductilidad y dureza de soldaduras hechas casi de titanio puro. La ecuación es E = 
2C + 3.5N + O, donde E es la equivalencia del oxígeno, y C, N y O las proporciones de peso, 
en partes por millón, de carbono, nitrógeno y oxígeno, respectivamente (se omitió un térmi- 
no constante que consiste en el contenido de hierro). Suponga que para un nivel particular de 
titanio puro comercial, las cantidades C, N y O son aproximadamante independientes y se dis- 
tribuyen normalmente con medias uc = 150, uy = 200, uy = 1 500 y desviaciones estándar 
Tc= 30, y = 60, y = 100. Determine la distribución de E. Determine P(E > 3 000). 


Solución 

Puesto que E es una combinación lineal de variables aleatorias normales independientes, su 
distribución es normal. Ahora se debe determinar la media y la varianza de E. Utilizando la 
ecuación (4.25) se calcula 


ME =2u4c +3.54y + lo 
= 2(150) + 3.5(200) + 1(1 500) 
= 2 500 

o = La + E + Pes 
= 2230?) + 3.5260?) + 12 (100?) 
= 57 700 


Se concluye que E — NQ 500, 57 700). 

Para calcular P(E > 3 000), se calcula el puntaje z: z = (3000 — 2 500)///57 700 = 
2.08. El área a la derecha de z = 2.08 debajo de la curva normal es 0.0188. Por tanto, P(E > 
3 000) = 0.0188. 


SiX¡, X>,..., X, es una muestra aleatoria de cualquier población con media y y va- 
rianza o”, entonces la media muestral X tiene una media uz = pu y varianza 0% = 0”/n. Si 
la población es normal, entonces X también es normal, ya que es una combinación lineal de 
Xi, ..., X, con coeficientes c; =*++*=cC, = l/n. 


Sean X¡,..., X, independientes y distribuidas normalmente con media yu y varianza 
a”, entonces 


O 


— 2 
eN (s. 7) (4.26) 


Otras combinaciones lineales importantes son la suma y resta de dos variables aleato- 
rias. Si X y Y son variables aleatorias independientes, la suma X + Y y la resta X — Y son com- 
binaciones lineales. Las distribuciones X + Y y X — Y se puede determinar utilizando la 
ecuación (4.25) con c; = 1,c,= 1 paraX + Y yc, =1,c,=-— l para X — Y. 
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Sean X y Y independientes, con X — N(ux, a y Y =— Ny, a, entonces 


X + Y — Nux + py 07 + 0%) (4.27) 


X — Y —=Mux— My 0% + 05) (4.28) 


¿Cómo puede saberse si los datos que se tiene 
provienen de una población normal? 


En la práctica, a menudo se tiene una muestra de alguna población y se le debe utilizar para 
decidir si la distribución de la población se aproxima a la normal. Si la muestra es razonable- 
mente grande, su histograma es buena indicación. Las muestras grandes de poblaciones nor- 
males tienen histogramas que se parecen a la función de densidad normal: con un pico en el 
centro, y decrecientes más o menos simétricamente en cada lado. Las gráficas de probabili- 
dad, que se analizarán en la sección 4.9, son otra buena forma de determinar si una muestra 
grande proviene de una población que es aproximadamente normal. Para muestras pequeñas, 
es difícil determinar si la distribución normal es la apropiada. Un hecho importante es éste: 
las muestras de poblaciones normales raramente tienen datos atípicos. Por tanto, no se utili- 
za la distribución normal en conjuntos de datos que tengan valores atípicos. Esto es cierto 
cuando el tamaño muestral es pequeño. Infortunadamente, para conjuntos pequeños de datos 
que no tienen datos atípicos, es difícil determinar si la población es aproximadamente normal. 
En general, se requiere de cierto conocimiento del proceso que generó los datos. 


Deducción de la media y varianza de una variable aleatoria normal 
Sea X — N(u, 07). Se demuestra que xy = mM y a Empleando la definición de la 
media poblacional de una variable aleatoria continua (ecuación 2.35 de la sección 2.4), 


se Íl 2 DY 2 
Mo =/ xe =M*/20* dy 


ss 0D 


Se hace la sustitución de z = (x — p)/o. Entonces x= 0z + u y dx = odz. Se obtiene 


Sl -2N 
Ux = (oz + u)oe ?* “dz 
SO 27 


la = 72 qq y 'M — 
=0 AC CN ZE 
=03 Y) Di le 00 AL 


El cálculo directo demuestra que 


Asimismo, 
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E 1 2/2 q) 1 
E ala = 
=00 y ay 


debido a que es la integral de la función de densidad de probabilidad N(0, 1) sobre todos 
sus posibles valores. 
Por tanto, 


px =0(0) + u(1) =p 
Para demostrar que ae = 9? se utiliza la ecuación (2.36) (de la sección 2.4): 
2 PA A 
gx = (x — px) 
63 ay 2T 


Se hace la sustitución de z = (x — u)Yo. Recuerde que uy = pu. Entonces 


2) ES DO, 1 =2 
Ox = TE RA al 


A 2 ad 
e U=M*/0* dy 


00 O 27 
2 Se 1 2/1 
=ee y O da 
00 v2T 


Al integrar por partes dos veces se demuestra que 


00 1 2 2/2 
=—=20 * Pda= 
de y 21 


o o 2) 2 
Por consiguiente, rx = 07. 


Ejercicios para la sección 4.5 


1. Determine el área bajo la curva normal a) ¿Cuál es la proporción de puntuaciones mayores a 700? 


a) A la derecha de z = — 0.85. 
b) Entre z = 0.40 y z = 1.30. 
c) Entre z = — 0.30 y z = 0.90. 


b) ¿Cuál es el 250. percentil de las puntuaciones? 


c) Si la puntuación de alguien es de 600, ¿en qué percentil 
se encuentra? 


d) ¿Qué proporción de las puntuaciones se encuentra entre 


d) Desde z = — 1.50 hasta z = — 0.45. 420 y 520? 


2. Determine el área bajo la curva normal 4. Suponga que la estatura de mujeres en una población sigue 


la curva normal con media de 64.3 pulgadas y desviación 


a) Ala izquierda de z = 0.56. estándar de 2.6 pulgadas. 


b) Entre z = — 2.93 y z = — 2.06. 


a) ¿Qué proporción de mujeres tiene estatura entre 60 y 66 


c) Entre z = — 1.08 y z = 0.70. pulgadas? 
d) Desde z = 0.96 hasta z = 1.62. b) La estatura de una mujer es 0.5 de desviación estándar 
mayor a la media. ¿Qué proporción de mujeres mide 
3. Las puntuaciones de una prueba estandarizada se distribu- más que ella? 
yen normalmente con media de 480 y desviación estándar c) ¿Cuánto mide una mujer cuya estatura se encuentra en 
de 90. el 900. percentil? 
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d) Se elige aleatoriamente una mujer de esta población. 
¿Cuál es la probabilidad de que ella mida más de 67 pul- 
gadas? 


e) Se elige aleatoriamente a cinco mujeres de esta pobla- 
ción. ¿Cuál es la probabilidad de que sólo una de ellas 
mida más de 67 pulgadas? 


. La resistencia de una aleación de aluminio se distribuye 
normalmente con media de 10 gigapascales (GPa) y desvia- 
ción estándar de 1.4 GPa. 


a) ¿Cuál es la probabilidad de que una muestra de esta 
aleación tenga resistencia mayor a 12 GPa? 


b) Determine el primer cuartil de la resistencia de esta 
aleación. 


c) Determine el 950. percentil de la resistencia de esta 
aleación. 


. En una universidad, las puntuaciones del SAT en matemáti- 
cas de una clase de primer año fue de, en promedio, 650 y 
tuvo desviación estándar de 100. El máximo puntaje posi- 
ble es de 800. ¿Es posible que el histograma de las puntua- 
ciones de estos alumnos siga una curva normal? Explique. 


. La penicilina es producida por el hongo Penicillium, que 
crece en un caldo, cuyo contenido de azúcar debe controlar- 
se con cuidado. La concentración óptima de azúcar es de 
4.9 mg/mL. Si la concentración excede los 6 mg/mL, el 
hongo muere y el proceso debe suspenderse todo el día. 


a) Si la concentración de azúcar en tandas de caldo se dis- 
tribuye normalmente con media 4.9 mg/mL y desvia- 
ción estándar 0.6 mg/mL, ¿en qué proporción de días se 
suspenderá el proceso? 


b) El distribuidor ofrece vender caldo con una concentra- 
ción de azúcar que se distribuye normalmente con me- 
dia de 5.2 mg/mL y desviación estándar de 0.4 mg/mL. 
¿Este caldo surtirá efectos con menos días de produc- 
ción perdida? Explique. 


. Un método de cromatografía utilizado para purificar a una 
proteína también destruye parte de ésta, en un proceso de- 
nominado desnaturación. Un método particular recupera 
una media de 55% (0.55) de la proteína y tiene desviación 
estándar de 0.15. La cantidad recuperada se distribuye nor- 
malmente. 


a) En cierto proceso industrial, no es posible obtener una 
recuperación menor a 0.30 más de 5% de las veces. ¿Es- 
te proceso cumple con este requisito? Explique. 


b) En otro proceso, la recuperación debe ser mayor a 0.50 
al menos 95% de las veces. Si la media de la recupera- 


9. 


10. 


11. 
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ción se distribuye normalmente con una media de 0.60, 
¿cuál es el valor más grande que puede tener la desvia- 
ción estándar para cumplir con este requisito? 


Se hace una perforación cilíndrica en un molde y se coloca 
un pistón cilíndrico en la perforación. La holgura es igual a 
la mitad de la diferencia entre los diámetros de la perfora- 
ción y el pistón. El diámetro de la perforación se distribuye 
normalmente con media de 15 cm y desviación estándar de 
0.025 cm, y el diámetro del pistón se distribuye con media 
14.88 cm y desviación estándar 0.015 cm. 


a) Determine la media de la holgura. 
b) Determine la desviación estándar de la holgura. 


c) ¿Cuál es la probabilidad de que la holgura mida menos 
de 0.05 cm? 


d) Determine el 250. percentil de la holgura. 


e) Las especificaciones requieren que la holgura mida en- 
tre 0.05 y 0.09 cm. ¿Cuál es la probabilidad de que la 
holgura satisfaga la especificación? 


f) Se puede ajustar la media del diámetro de la perfora- 
ción. ¿A qué valor debe ajustarse para maximizar la pro- 
babilidad de que la holgura esté entre 0.05 y 0.09 cm? 


Los ejes fabricados para el uso de dispositivos de almacena- 
miento óptico tienen diámetros que se distribuyen normal- 
mente con media y = 0.652 y desviación estándar a = 
0.003 cm. La especificación para el diámetro del eje mide 
entre 0.650 + 0.005 cm. 


a) ¿Qué proporción de los ejes fabricados por este proceso 
cumple con la especificación? 


b) La media del proceso puede ajustarse utilizando calibra- 
ción. Si se establece que la media mide 0.650 cm, ¿qué 
proporción de los ejes cumplirá con la especificación? 


€ 


= 


Si se establece que la media mide 0.650 cm, ¿cuál debe 
ser la desviación estándar para que 99% de los ejes cum- 
pla con la especificación? 


El volumen de latas llenadas por cierta máquina se distribu- 
ye con media de 12.05 onzas y desviación estándar de 0.03 
Onzas. 


a) ¿Qué proporción de latas contiene menos de 12 onzas? 


b) La media del proceso se puede ajustar utilizando cali- 
bración. ¿En qué valor debe fijarse la media para que 
99% de las latas contenga 12 onzas o más? 


c) Si la media del proceso sigue siendo de 12.05 onzas, ¿en 
qué valor debe fijarse la media para que 99% de las la- 
tas contenga 12 onzas o más? 


12. 


13. 


14. 


Un proceso de recubrimiento de películas genera filmes cu- 
yo espesor se distribuye con media de 110 micrones y des- 
viación estándar de 10 micrones. En cierta aplicación, el 
espesor mínimo aceptable es de 90 micrones. 


a) ¿Qué proporción de películas estarán demasiado delga- 
das? 


b) ¿A qué valor debe establecerse la media para que sólo 
1% de las películas esté muy delgado? 


c) Si la media sigue siendo 110, ¿cuál debe ser la desvia- 
ción estándar para que sólo 1% de las películas sea muy 
delgado? 


Un proceso hilador de fibras produce una fibra cuya resis- 
tencia se distribuye con media de 75 N/m?. La resistencia 
mínima aceptable es de 65 N/m?. 


a) 10% de las fibras producidas mediante el método actual 
no cumple con la especificación mínima. ¿Cuál es la 
desviación estándar de la resistencia de las fibras en el 
proceso actual? 


b) Si la media sigue siendo de 75 N/1m?, ¿cuál debe ser la 
desviación estándar para que sólo 1% de las fibras no sa- 
tisfaga la especificación? 

c) Sila desviación estándar es de 5 N/1m?, ¿en qué valor de- 
be fijarse la media para que sólo 1% de las fibras no sa- 
tisfaga la especificación? 


El programa de garantía de calidad de cierto proceso de for- 
mulación de un adhesivo consiste en medir qué tanto el ad- 
hesivo pega un pedazo de plástico a una superficie de 
vidrio. Cuando el proceso funciona correctamente, la fuer- 
za del adhesivo X se distribuye con media de 200 N y des- 
viación estándar de 10 N. Cada hora, usted hace una 
medición de la fuerza del adhesivo. Usted debe informar a 
su supervisor si su medición indica que el proceso se ha 
desviado de su distribución objetivo. 


a) Calcule P(X = 160) bajo el supuesto de que el proceso 
está funcionando correctamente. 


b) Con base en su respuesta al inciso a), si el proceso fun- 
ciona bien, ¿una fuerza de 160 N sería inusualmente pe- 
queña? Explique. 

c) Si usted observa una fuerza adhesiva de 160 N, ¿esto úl- 
timo sería una evidencia de que el proceso ya no funcio- 
na correctamente? Explique. 

d) Encuentre P(X = 203), bajo la suposición de que el pro- 

ceso está funcionando bien. 


e) Con base en su respuesta del inciso d), si el proceso fun- 
ciona correctamente, ¿sería una fuerza de 203 N inusual- 
mente grande? Explique. 


15. 


16. 


17. 
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f) Si usted observa una fuerza adhesiva de 203 N, ¿lo an- 
terior sería una evidencia de que el proceso ya no fun- 
ciona correctamente? Explique. 


g) Encuentre P(X = 195), bajo la suposición de que el pro- 
ceso está funcionado bien. 


h) Con base en su respuesta del inciso g), si el proceso es- 
tá funcionando correctamente, ¿sería una fuerza de 195 
N inusualmente pequeña? Explique. 


i) Si usted observa una fuerza adhesiva de 195 N, ¿esto se- 
ría una evidencia de que el proceso ya no funciona co- 
rrectamente? Explique. 


Una instalación de luz tiene dos focos. El A es de un tipo 
cuya duración se distribuye con media de 800 horas y des- 
viación estándar de 100 horas. El B tiene una duración que 
se distribuye con media de 900 horas y desviación estándar 
de 150 horas. Suponga que las duraciones de los focos son 
independientes. 


a) ¿Cuál es la probabilidad de que el foco B dure más que 
el A? 


b) ¿Cuál es la probabilidad de que el foco B dure 200 ho- 
ras más que el A? 


c) Otra instalación de luz tiene sólo un foco. Se pone uno 
del tipo A y cuando se funde se instala otro de tipo B. 
¿Cuál es la probabilidad de que la duración total de am- 
bos sea mayor a 2 000 horas? 


La molaridad de un soluto en solución se define como el nú- 
mero de moles del soluto por litro de solución (1 mol = 
6.02 x 10% moléculas). Si X es la molaridad de una solución 
de cloruro de sodio (NaCl) y Y es la molaridad de una solu- 
ción de carbonato de sodio (Na,COz), la molaridad del ¡on 
de sodio (Na*) en una solución hecha de partes iguales 
NaCl y Na,CO, está dada por M = 0.5X + Y. Suponga que 
X y Y son independientes y se distribuyen normalmente y 
que X tiene media de 0.450 y desviación estándar de 0.050, 
y Y tiene media de 0.250 y desviación estándar de 0.025. 


a) ¿Cuál es la distribución de M? 
b) Determine P(M > 0.5). 


Una compañía recibe importante cargamento de pernos. Éstos 
se utilizarán en una aplicación que necesita de una torsión 
de 100 J. Antes de que se acepte el cargamento, un ingenie- 
ro especialista en control de calidad sacará una muestra de 
12 pernos y medirá la torsión necesaria para romper a cada 
uno de ellos. El cargamento será aceptado si el ingeniero 
concluye que menos de 1% de los pernos tiene torsión de 
ruptura menor a 100 J. 
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a) Silos 12 valores son 107, 109, 111, 113, 113, 114, 114, Cc) ¿Qué pasará si los 12 valores hubieran sido 108, 110, 
115, 117, 119, 122, 124, calcule la media y la desviación 112, 114, 114, 115, 115, 116, 118, 120, 123, 140? Utili- 
estándar muestral. ce el método descrito en los incisos a) y b) para deter- 

b) Suponga que se saca una muestra de 12 valores de una minar si el cargamento hubiera sido aceptado. 
población normal, y suponga que la media y la desvia- d) Compare los conjuntos de 12 valores en los incisos a) y 
ción estándar muestrales calculadas en el inciso a) son Cc). ¿En qué muestra los pernos son más resistentes? 
realmente la media y la desviación estándar de la pobla- e) ¿El método es válido para ambas muestras? ¿Por qué sí 


ción. Calcule la proporción de pernos cuya torsión de 


O por qué no? 
ruptura es menor a 100 J. ¿Será aceptado el cargamento? 


4.6 Distribución lognormal 


Para datos que tienen valores atípicos, la distribución normal no es apropiada. La distribución 
lognormal, que tiene relación con la distribución normal, es, a menudo, buena opción para 
estos conjuntos de datos. La distribución lognormal se deriva de la distribución normal de la 
siguiente manera: Si X es una variable aleatoria normal con media u y varianza 9”, entonces 
la variable aleatoria Y = e* tiene distribución lognormal con parámetros uu y a”. Observe 
que si Y tiene una distribución normal con parámetros u y a”, entonces X = In Y tiene una 
distribución normal con media u y varianza o”. 


Mm SiX=N(p, a, entonces la variable aleatoria Y = e* tiene distribución lognor- 
mal con parámetros u y a”. 


E Si Y tiene distribución lognormal con parámetros yu y a”, entonces la variable alea- 
toria X = In Y tiene la distribución N(u, 07). 


La función de densidad de probabilidad de una variable aleatoria lognormal con pará- 
metros u y a” es 


ll 1 2 z 
e aan exp | 293 0x wo six>0 


0 six<0 


(4.29) 


La figura 4.14 presenta una gráfica de la función de densidad lognormal con paráme- 
tros 4 = 0 y a = 1. Observe que la función de densidad está sesgada. Ésta es la razón por la 
que se utiliza la distribución lognormal para modelar procesos que tienden a producir ocasio- 
nalmente valores grandes o atípicos. 
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FIGURA 4.14 Función de densidad de probabilidad de la distribución lognormal con 
parámetros y =0yoa = 1. 


Puede demostrarse mediante métodos avanzados que sí Y es una variable aleatoria log- 
normal con parámetros u y a”, entonces la media E(Y) y la varianza V(Y) están dadas por 


E(Y) = et + 0/2 VO EN e +20? _ ee + 2g? (4.30) 


Observe que si Y tiene una distribución lognormal, los parámetros u y a” no se refieren a la 
media y varianza de Y, sino que lo hacen a la media y varianza de la variable aleatoria nor- 
mal In Y. En la ecuación (4.30) se utiliza la notación E(Y) en vez de uy y V(Y) lugar de gr 
para evitar confusiones entre u y Cr. 


El tiempo de vida de cierto componente sigue una distribución lognormal con parámetros 
p = 1 día y a = 0.5 días. Determine la media del tiempo de vida de estos componentes. En- 
cuentre la desviación estándar de los tiempos de vida. 


Solución 

Sea Y el tiempo de vida de un componente escogido aleatoriamente. La media de Y determina- 
da mediante la ecuación (4.30) es e! * 057 — 3.08 días. La varianza es e +20Y — ¿20 +05 
= 2.6948. Por tanto, la desviación estándar es 2.6948 = 1.64 días. 


Para calcular las probabilidades de variables aleatorias lognormales, se saca el logarit- 
mo y se utiliza la tabla z (tabla A.2). Los ejemplos 4.52 y 4.53 ilustran el método. 
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Ejemplo 


Ejemplo 
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Con referencia al ejemplo 4.51, encuentre la probabilidad de que un componente dure más de 
cuatro días. 


Solución 

Sea Y el tiempo de vida de un componente seleccionado de forma aleatoria. Se necesita cal- 
cular P(Y > 4). No se puede utilizar la tabla z para Y, debido a que Y no proviene de una po- 
blación normal. Sin embargo, In Y proviene de una población normal; específicamente, In Y 
— N(, 0.57). Se expresa P(Y > 4) como una probabilidad que implica a In Y: 


P(Y > 4) = P(In Y > In 4) = P(In Y > 1.386) 
El puntaje z de 1.386 es 
_ 1.386 — 1.000 
0.5 
= 0.77 


De la tabla z se tiene que P(1n Y > 1.386) = 0.2206. (Véase la figura 4.15.) Se concluye que 
aproximadamente 22% de los componentes durará más de cuatro días. 


0.2206 


| 
1.00 1.386 
z=0.77 


FIGURA 4.15 Solución al ejemplo 4.52. 


Con referencia al ejemplo 4.51 determine la mediana de los tiempos de vida. Encuentre el 
800. percentil de los tiempos de vida. 


Solución 
Sea Y el tiempo de vida de un componente escogido aleatoriamente. Sea M la mediana de los 
tiempos de vida. Entonces P(Y <= m) = 0.5. En logaritmos, se tiene que P(In Y <= In m) = 0.5. 
Esto significa que In m es la mediana de In Y. Ahora, ln Y = M(l, 055. Por consecuencia, ln 
m = 1, por lo que m = e! = 2.718. 

Para encontrar al 800. percentil, pgg, se hace P(Y <= pgzp) = 0.80. Por lo que P(n Y <= In 
Pso) = 0.80. Esto significa que ln pg, es el 800. percentil de ln Y. Ahora ln Y =— NU, 0.5?). De 
la tabla z, el puntaje z del 800. percentil es 0.84. Por consiguiente, In pg = 1 + (0.84)(0.5) 
= 1.42, de tal forma que psp = e*=4,14, 
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Estimación de los parámetros de una distribución lognormal 


Si Y es una variable aleatoria cuya distribución es lognormal con parámetros u y a”, enton- 
ces u y o” son la media y la varianza, respectivamente, de In Y. Por tanto, si Y,,..., Y, es 
una muestra aleatoria de una población lognormal, primero se transforma a la escala logarít- 
mica, definiendo X, =In Y,,...,X, = In Y,. Ahora X;,..., X, es una muestra aleatoria de 
N(, 97). Se estima con X y 07 con la varianza muestral sz. Al igual que con la media mues- 
tral, la incertidumbre en X es oz =0/ Vn, y si no se conoce q, se le estima con la desvia- 
ción estándar muestral sx. 


Los diámetros (en mm) de las semillas de cierta planta siguen una distribución normal. Una 
muestra aleatoria de cinco semillas tiene los diámetros 1.52, 2.22, 2.64, 2.00 y 1.69. Estime 
los parámetros y y C-. 


Solución 

Para estimar uu y dr, se sacan los logaritmos de los cinco valores de la muestra, para obtener 
0.419, 0.798, 0.971, 0.693 y 0.525. La media muestral es 0.681 y la desviación estándar 
muestral es 0.218. Por consecuencia, se estima que 4 = 0.681,06 = 0.218. 


¿Cómo puede saberse si los datos provienen 
de una población lognormal? 


Como se afirmó anteriormente, es muy raro que las muestras provenientes de poblaciones nor- 
males contengan datos atípicos. En contraste, las muestras provenientes de poblaciones log- 
normales a menudo tienen datos atípicos en la cola derecha. Es decir, las muestras contienen 
pocos valores que son más grandes que el resto de los datos. Obviamente, esto último se re- 
fleja en la larga cola derecha de la función de densidad lognormal (figura 4.14). Para las 
muestras con datos atípicos a la derecha, se transforman los datos, sacando el logaritmo na- 
tural (o cualquier logaritmo) de cada valor. Luego se intenta determinar si estos logaritmos 
vienen de una población normal, graficándolos en un histograma o en una gráfica de proba- 
bilidad. En la sección 4.9 se analizarán las gráficas de probabilidad. 

Observe que la densidad lognormal tiene sólo una cola larga, a la derecha. Por esta ra- 
zÓn, las muestras de poblaciones lognormales tienen datos atípicos a la derecha, pero no a la 
izquierda. Por consiguiente, no debe utilizarse la distribución lognormal en muestras con in- 
usualmente muy pocos datos. Además, las poblaciones lognormales sólo tienen valores posi- 
tivos, por lo que no puede emplearse la distribución lognormal en muestras que contengan 
ceros o valores negativos. Por último, es importante observar que la transformación log no 
siempre genera una muestra que se aproxima a la normal. Para verificar lo anterior, se tiene 
que graficar un histograma o un gráfico de probabilidad (véase la sección 4.9). 

La figura 4.16 presenta dos histogramas. El primero muestra la producción mensual de 
255 pozos de gas, en unidades de miles de pies cúbicos. El histograma claramente tiene una 
larga cola derecha, por lo que se concluye que los datos no provienen de una población normal. 
El segundo muestra los logaritmos naturales de las producciones mensuales. Este histograma 
se aproxima más a la curva normal, aunque se percibe cierta diferencia con la normalidad. 
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FIGURA 4.16 a) Histograma que muestra la producción mensual de 255 pozos de gas. Tiene una larga cola derecha. b) 
Histograma que muestra los logaritmos naturales de las producciones mensuales. La distribución de los datos logarítmicos 
se aproxima mucho más a la normal. 


Ejercicios para la sección 4.6 


1. El tiempo de vida (en días) de cierto componente electróni- e) Determine el 750. percentil del porcentaje absorbido. 


co que opera en un ambiente a alta temperatura sigue una 
distribución lognormal con y = 1.2 y 0 = 0.4. 


a) Determine la media del tiempo de vida. 


b) Determine la probabilidad de que un componente dure 
entre tres y seis días. 


c) Determine la mediana del tiempo de vida. 


d) Determine al 900. percentil de los tiempos de vida. 


. Cuando un pesticida entra en contacto con la piel, se absor- 
be cierto porcentaje de éste. El porcentaje del pesticida que 
será absorbido durante cierto espacio de tiempo puede mo- 
delarse con una distribución lognormal. Suponga que para 
cierto pesticida, la cantidad que es absorbida (en porcenta- 
je) durante un periodo de dos horas sigue una distribución 
lognormal con y = 1.5 y a = 0.5. 


a) Determine la media del porcentaje absorbido. 
b) Determine la mediana del porcentaje absorbido. 


c) Determine la probabilidad de que el porcentaje absorbi- 
do sea mayor que 10. 


d) Determine la probabilidad de que el porcentaje absorbi- 
do sea menor que 5. 


f) Determine la desviación estándar del porcentaje absor- 
bido. 


. El índice de masa corporal (IMC) de una persona se define 


como la masa corporal de una persona dividido entre el cua- 
drado del peso de la persona. El artículo “Influences of Pa- 
rameter Uncertainties within the ICRP 66 Respiratory Tract 
Model: Particle Deposition” (W. Bolch, E. Farfan y colabo- 
radores, en Health Physics, 2001:378-394) establece que el 
índice de masa corporal (en kg/m?) en hombres entre 25-34 
años sigue una distribución lognormal con parámetros u = 
3.215 y a = 0.157. 


a) Determine la media del IMC para hombres entre 25-34 
años. 


b) Determine la desviación estándar del IMC para hombres 
entre 25-34 años. 


c) Determine la mediana del IMC para hombres entre 25- 
34 años. 


d) ¿Qué proporción de hombres entre 25-34 años tiene un 
IMC menor a 22? 


e) Encuentre el 750. percentil de IMC para hombres entre 
25-34 años. 


4. 


El artículo “Stochastic Estimates of Exposure and Cancer 
Risk from Carbon Tetrachloride Released to the Air from the 
Rocky Flats Plant” (A. Rood, P. McGavran y colaboradores, 
en Risk Analysis, 2001:675-695) modela el aumento en el 
riesgo de cáncer debido a la exposición al tetracloruro de 
carbono como una lognormal con y = —15.65 y a = 0.79. 


a) Determine la media del riesgo. 

b) Determine la mediana del riesgo. 

c) Determine la desviación estándar del riesgo. 
d) Determine el 50. percentil. 


e) Determine el 950. percentil. 


El artículo “Withdrawal Strenght of Threaded Nails” (D. 
Rammer, S. Winistorfer y D. Bender, en Journal of Structu- 
ral Engineering, 2001:442-449) describe un experimento 
que compara la resistencia final a ser retirados (en N/mm) 
de varios tipos de clavos. Para un clavo con rosca anular y 
un vástago de diámetro de 3.76 mm introducido en una ma- 
dera de pinabete, pino y abeto, la resistencia final de retiro 
fue modelada como una lognormal con 4 = 3.82 y dr = 
0.219. Para un clavo con rosca en espiral, bajo las mismas 
condiciones, la resistencia se modeló como una lognormal 
con 4 = 3.47 y d = 0.272. 


a) ¿Cuál es la media de la resistencia de retiro para los cla- 
vos con rosca anular? 


b) ¿Cuál es la media de la resistencia de retiro para los cla- 
vos con rosca en espiral? 

c) ¿Con qué tipo de clavo es más probable que la fuerza de 
retiro sea mayor a 50 N/mm? 


d 


= 


¿Cuál es la probabilidad de que un clavo con rosca en 
espiral tenga una resistencia mayor a ser retirado que la 
mediana de los clavos con rosca anular? 


e) Se realiza un experimento en el cual se mide las resis- 
tencias a ser retirados de diversos clavos de los dos ti- 
pos. Se registra que un clavo tiene resistencia a ser 
retirado de 20 N/mm, pero no se sabe el tipo. ¿Piensa 
que se trata de un clavo con rosca anular o de un clavo 
con rosca en espiral? ¿Por qué? ¿Qué tan seguro está? 


Elija la mejor respuesta, y explique. Si X es una variable 
aleatoria con una distribución lognormal, entonces 


i) la media de X siempre es mayor que la mediana. 


4.6 Distribución lognormal 249 


ii) la media de X siempre es menor que la mediana. 


iii) la media puede ser mayor que, menor que, o igual que 
la mediana, dependiendo del valor de dr. 


Los precios de acciones u otros instrumentos financieros 
con frecuencia se modelan como una distribución lognor- 
mal. Un inversionista está considerando comprar acciones 
en una de dos compañías, A o B. Hoy el precio de una ac- 
ción en ambas compañías es de un dólar. Para la A, el valor 
de la acción en un año a partir de ahora se modela como una 
lognormal con parámetros u = 0.05 y d = 0.1. Para la B, 
el valor de la acción en un año a partir de ahora se modela 
como una lognormal con parámetros u = 0.02 y a = 0.2, 


a) Determine la media del precio de una acción de la com- 
pañía A en un año a partir de ahora. 


b) Determine la probabilidad de que el precio de una ac- 
ción de la compañía A en un año a partir de ahora sea 
mayor a $1.20. 


c) Determine la media del precio de una acción de la com- 
pañía B en un año a partir de ahora. 


d) Determine la probabilidad de que el precio de una ac- 
ción de la compañía B en un año a partir de ahora sea 
mayor a $1.20. 


Un fabricante afirma que la resistencia a la tensión de cier- 
to compuesto (en MPa) tiene una distribución lognormal 
con 4 = 5 y a = 0.5. Sea X la resistencia de una muestra 
aleatoria y representativa de este compuesto. 


a) Si la afirmación es cierta, ¿a qué es igual P(X < 20)? 

b) Con base en la respuesta al inciso (a), si la afirmación es 
cierta, ¿una resistencia de 20 MPa sería inusualmente 
pequeña? 

c) Si usted observa una resistencia a la tensión de 20 MPa, 
¿esto sería una evidencia de que la afirmación es falsa? 
Explique. 

d) Si la afirmación es cierta, ¿a qué es igual P(X < 130)? 


e) Con base en la respuesta al inciso d), si la afirmación es 
cierta, ¿una resistencia de 130 MPa sería inusualmente 
pequeña? 

f) Si usted observa una resistencia a la tensión de 130 
MPa, ¿esto sería una evidencia de que la afirmación es 
falsa? Explique. 
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4.7 La distribución exponencial 


La distribución exponencial es una distribución continua que algunas veces se utiliza para 
modelar el tiempo que transcurre antes de que ocurra un evento. A menudo, a aquél se le lla- 
ma tiempo de espera. En algunas ocasiones la distribución exponencial se utiliza para mo- 
delar el tiempo de vida de un componente. Asimismo, hay una relación cercana entre la 
distribución exponencial y la distribución de Poisson. 

La función de densidad de probabilidad de la distribución exponencial tiene un paráme- 
tro, que representa una constante positiva Á cuyo valor determina la localización y forma de 
la función. 


Definición 
La función de densidad de probabilidad de la distribución exponencial con parámetro 


A>0es 


pe x>0 


10=(0 el (4.31) 


La figura 4.17 presenta la función de densidad de probabilidad de la distribución exponencial 
para varios valores de A. Si X es una variable aleatoria cuya distribución es exponencial con 
parámetro A, se expresa como X — Exp(A). 


0 0.5 1 1.5 2 2.5 3 


FIGURA 4.17 Gráficas de la función de densidad de probabilidad exponencial para varios valores de A. 


Es fácil calcular la función de distribución acumulativa de la distribución exponencial. 
Para x < 0, F(x) = P(X <= x) = 0. Para x > 0, la función de distribución acumulativa es 


FO=PXE%S= / e dt=1-e* 
0 
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Si X — Exp(), la función de distribución acumulativa de X es 


l-e 9 x>0 


0 +=0Ú (4.32) 


Pu) =PX 5x0) =| 


La media y la varianza de una variable aleatoria exponencial se pueden calcular me- 
diante la integración por partes. Al final de la sección se muestra las deducciones. 


Si X — Exp(), entonces 


Ux => (4.33) 
a 4.34 


Si X — Exp(Q2), encuentre ux, a y P(X <= 1). 


Solución 
Se calcula uy y us a partir de las ecuaciones (4.33) y (4.34), sustituyendo A = 2. Se obtiene 
px = 0.5, ox = 0.25. Utilizando la ecuación (4.32), se tiene que 


P(X<b=1-e?*8 =0.865 


Con referencia al ejemplo 4.55, determine la mediana de X. Encuentre el 300. percentil de X. 


Solución 
Sea m la mediana de X. Entonces P(X <= m) = 0.5. Mediante la ecuación (4.32) se tiene que 
1 — e?” = 0.5. Al despejar m, se obtiene que m = 0.3466. 

Sea pzy el 300. percentil. Entonces P(X <= p3p) = 0.30. Utilizando la ecuación (4.32), se 
tiene que 1 — e” = 0,30. Al despejar pz, se obtiene que pzy = 0.1783. 


La distribución exponencial y el proceso de Poisson 


Se mencionó que algunas veces se utiliza la distribución exponencial para modelar el tiempo 
de espera de un evento. Resulta que la distribución exponencial es el modelo correcto para los 
tiempos de espera siempre y cuando los eventos sigan un proceso de Poisson. Recuerde de la 
sección 4.3 que los eventos que siguen un proceso Poisson con un parámetro de razón A cuan- 
do los números de eventos en intervalos disjuntos son independientes, y el número X de even- 
tos que ocurre en un intervalo con una longitud f tiene una distribución de Poisson con media 
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At, es decir, cuando X — Poisson(A£). La conexión entre la distribución exponencial y el pro- 
ceso de Poisson es la siguiente: 


Si los eventos siguen un proceso de Poisson con un parámetro de razón A, y si T re- 
presenta el tiempo de espera desde cualquier punto inicial hasta el próximo evento, 
entonces T — Exp(A). 


Al final de esta sección se demuestra este hecho. 


Una masa radiactiva emite partículas de acuerdo con un proceso de Poisson a una media de ra- 
zÓón de 15 partículas por minuto. En algún punto inicia un reloj. ¿Cuál es la probabilidad de 
que transcurran cinco segundos antes de la siguiente emisión? ¿Cuál es la media del tiempo 
de espera hasta que se emite la siguiente partícula? 


Solución 

El tiempo se medirá en segundos. 7 denota el tiempo en segundos que transcurre antes de que 
se emita la siguiente partícula. La media de la razón de las emisiones es de 0.25 por segundo, 
por lo que el parámetro de razón es A = 0.25 y T — Exp(0.25). La probabilidad de que trans- 
curran más de cinco segundos antes de la siguiente emisión es igual a 


P(T>5)=1-P(T<5) 


== a _ ¿AN 
= e7125 


= 0.2865 


1 
La media del tiempo de espera es 47 = 095 — 4, 
Propiedad de falta de memoria 


La distribución exponencial tiene una propiedad conocida como falta de memoria, que se 
muestra en los ejemplos 4.58 y 4.59. 


El tiempo de vida de un circuito integrado particular tiene una distribución exponencial con 
media de dos años. Encuentre la probabilidad de que el circuito dure más de tres años. 


Solución 
Sea T el tiempo de vida del circuito. Dado que uy = 2,4 = 0.5. Se necesita encontrar P(T > 3). 
P(T>3)=1-P(T<3) 
y 


= 0.223 
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Con referencia al ejemplo 4.58, suponga que actualmente un circuito tiene cuatro años y aún 
funciona. Determine la probabilidad de que funcione tres años más. Compárela con la proba- 
bilidad de que un circuito nuevo funcione tres años más, la cual se calculó en el ejemplo 4.58. 


Solución 
Se pide que el tiempo de vida de un circuito sea más de cuatro años y se tiene que calcular la 
probabilidad de que el tiempo de vida sea mayor que 4 + 3 = 7 años. La probabilidad está 
dada por 
P(T>7yT>4) 
P(T > 4) 


P(T >1|T >4)= 


Si T > 7, entonces también T > 4. Por consecuencia, P(T' > 7 y T> 4) = P(T > 7). De ahí 
que 
P(T >7) 


P(T > 4) 
057 


P(T >7|T > 4) = 


e70.5(4) 
e 056) 


= e15 


= 0.223 


La probabilidad de que un circuito con cuatro años dure tres años más es la misma probabi- 
lidad de que el circuito nuevo dure tres años. 


Los ejemplos 4.58 y 4.59 muestran la propiedad de falta de memoria. La probabilidad 
de que se tenga que esperar £ unidades adicionales, dado que ya se han esperado s unidades, 
es la misma que la probabilidad de que se tenga esperar £ unidades desde el inicio. La distri- 
bución exponencial no “recuerda” cuánto tiempo se ha esperado. En particular, si el tiempo 
de vida de un componente sigue una distribución exponencial, entonces la probabilidad de 
que un componente que tiene s unidades de tiempo dure £ unidades de tiempo adicionales es 
la misma que la probabilidad de que un componente nuevo dure £ unidades de tiempo. En 
otras palabras, un componente cuyo tiempo de vida siga una distribución exponencial no 
muestra ningún síntoma de los años o del uso. 

Los cálculos en los ejemplos 4.58 y 4.59 se pueden repetir para cualesquiera valores s 
y ten lugar de 4 y 3, y para cualquier valor de A en lugar de 0.5. Ahora, se establece la pro- 
piedad de falta de memoria en su forma general: 


Propiedad falta de memoria 
Si T — Exp(A), y t y s son números positivos, entonces 


AUS BES 7 => 9) = 2 => 6) 
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El número de visitas a un sitio web sigue un proceso de Poisson con una razón de tres por mi- 
nuto. ¿Cuál es la probabilidad de que transcurra más de un minuto sin recibir una visita? Si 
transcurren dos minutos sin una visita, ¿cuál es la probabilidad que se dé una visita en el si- 
guiente minuto? 


Solución 

Sea T el tiempo de espera en minutos hasta la siguiente visita. Entonces 7 — Exp(3). La pro- 
babilidad de que transcurra un minuto sin ninguna visita es P(T > 1) = e 1 = 0.0498. De- 
bido a la propiedad de falta de memoria, la probabilidad de que pase un minuto adicional sin 
ninguna visita, dado que han transcurrido dos minutos sin una visita, es también igual a 0.0498. 
Por tanto, la probabilidad de que ocurra una visita en el siguiente minuto es igual a 1 — 0.0498 
= 0.9502. 


Uso de la distribución exponencial para estimar una razón 
Si X — Exp(Q), entonces uy = 1/4, por lo que A = 1/uy. De ahí que X,,..., X, sea una mues- 
tra aleatoria de Exp(A), una estimación razonable de A es %A= 1/X. 
Se analizará el sesgo en A =1/X. Al igual que con cualquier media muestral X, uy = 
1, por tanto, X es un estimador no sesgado de yn. No obstante, ¡7 + 1/u, ya que 1/p no es 
una función lineal de yu. Por consecuencia, 2 = 1/X es un estimador sesgado de A = 1/p. Uti- 
lizando métodos avanzados puede demostrarse que uz = A + An; de esta forma el sesgo es 
aproximadamente Mn. Por tanto, para una muestra de tamaño n lo suficientemente grande el 
sesgo es despreciable, pero puede ser importante cuando el tamaño de aquélla es pequeño. 
Se puede estimar la incertidumbre en % mediante el método de propagación de errores 
(ecuación 3.10 de la sección 3.3): 


ox 


E 


Para que esta expresión sea útil, es necesario conocer dz. Ahora, que la desviación estándar de 
una distribución Exp(A) es a = 1/1 (lo cual se tiene a partir de la ecuación 4.34; observe que 
la desviación estándar es la misma que la media). Por consiguiente, vz =0/yn = 1/0./n). 
Se puede sustituir Á con el estimador 1/X para obtener 


Ahora, se puede estimar la incertidumbre dz: 


05% 
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Esta estimación con el método de propagación de errores es muy bueno cuando el tamaño 
muestral es de al menos 20 o algo así. Para tamaños menores de muestra, éste subestima la 
incertidumbre. 


SiX;,..., X, es una muestra aleatoria de Exp()n, entonces el parámetro A se estima 
con 
%= E (4.35) 
XxX 


Este estimador es sesgado. El sesgo es aproximadamente igual a Un. La incertidumbre 
en A se estima con 
1 
1=>5 
Xyn 
Este estimador de la incertidumbre es razonablemente bueno cuando el tamaño mues- 
tral es mayor a 20. 


(4.36) 


Corrección del sesgo 

Dado que uz = yx = A + Mn = (n + Din, se tiene que Uni + 11x = A. En otras palabras, 
la cantidad n/[(n + 1)X] es un estimador menos sesgado de A que 1/X. A esto último se le 
conoce como estimador con corrección de sesgo. 


Se toma una muestra aleatoria de tamaño 5 de una distribución Exp(A). Los valores son 7.71, 
1.32, 7.46, 6.53 y 0.44. Encuentre un estimador con corrección de sesgo de A. 


Solución 
La media muestral es X = 4.6920. El tamaño muestral es n = 5. El estimador con corrección 
de sesgo de 2 es 5/[6(4.6920)] = 0.178. 


Deducción de la media y la varianza de una 
variable aleatoria exponencial 
Para deducir la ecuación (4.33) se comienza con la ecuación (2.35) (de la sección 2.4): 


ux = il xf(x) dx 


(0,9) 


Al sustituir la función de densidad de probabilidad exponencial (4.31) para f(x), se obtiene 
00 
ii = l mer da 
0 


Al integrar por partes, haciendo u = x y du = le * se obtiene 
[o,2) 


Ax 


00 
Ux =-—xe ae / de (4.37) 
0 


0 
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Se evalúa la primera cantidad en el lado derecho de la ecuación (4.37): 


Il 
ES 
= 
Ñ 
> 
a 
5 
| 
(e) 


=xe 


Il 
ES 
= 
| 
o) 
O 
SS 
¡a 
ES] 
” 
(e) 
[1] 
Se, 
ES] 
a 
(e) 
E 
pa 
je) 
12) 
h=) 
ES 
ES] 
¡e 


Por consecuencia, 


Para deducir la ecuación (4.34) se comienza con la ecuación (2.37) (de la sección 2.4): 
. $) 
=] f(x) dx — po 


Al sustituir la función de densidad de probabilidad exponencial (4.31) por f(x) y 1/1 por 
px, se obtiene 


[0] 
1 
2 2 _—Ax 
a = NEC a = = (4.38) 
E / 22 


Se evalúa la integral 1 1x2e7** dx, utilizando la integración por partes. Al hacer u = je 


y du = de” se obtiene 
00 2 00 
mi 2xle A dx = =xfe > +/ Te le (4,39) 
0 0 


0 


Se evalúa la primera cantidad en el lado derecho de la ecuación (4.39): 


00 
=re [E lm-=e*"*=0 
x—>00 
0 
pa lí: pe 
A 
> 23% , Ñ 
= Lím a por la regla de L'Hospital 
2 
= lim ==== por la regla de L'Hospital 
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Por tanto, 


a 
= ¿Ax 
(2 1 
NN 
2 
= 2 
Al sustituir en (4.38) se obtiene 
2 1 
ZA 
O a 
1 
2 


Deducción de la relación entre la distribución exponencial 

y el proceso de Poisson 

Sea T el tiempo de espera hasta el siguiente evento en un proceso de Poisson con un pará- 
metro de razón A. Es evidente que 7 — Exp(A) al demostrar que la función de distribución 
acumulativa de T es F(t) = 1 — en que es la función de distribución acumulativa de 
EXpGJ. 

Primero, si £ = 0, entonces F(t) = P(T < t) = 0. Ahora £ > 0. Se comienza por calcu- 
lar P(T > £). La clave es considerar que T > £, si y sólo si, no ocurre ningún evento duran- 
te las siguientes f unidades de tiempo. Sea X el número de eventos que sucede en las 
siguientes £ unidades de tiempo. Ahora T > £ si y sólo si X = 0, por lo que P(T > £) = P(X 
= 0). 

Puesto que X — Poisson (A£), 


ñ 20 
== 
P0=0)=0 o! 
a ee 

Por consecuencia, P(T > t) = e *. La función de distribución acumulativa de T es 
F(t) = 0 parar <0, y parat > 0 

IO) = LAU SE 6) 
1=-P(T >1) 
At 


= ll =P 


Dado que F(t) es la función de distribución acumulativa de Exp(A), se tiene que 
T — Exp). 
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Ejercicios para la sección 4.7 


1. 


> 


T — Exp(0.45). Determine 


a) pr 

b) 07 

c) P(T> 3) 

d) La mediana de T 


El tiempo de vida de un fusible en cierta aplicación tiene 
distribución exponencial con media de dos años. 


a) ¿Cuál es el valor del parámetro 2? 


b) ¿Cuál es la mediana del tiempo de vida de dicho fusi- 
ble? 


Cc) ¿Cuál es la desviación estándar? 
d) ¿Cuál es el 600. percentil? 


e) Determine la probabilidad de que un fusible dure más de 
cinco años. 


f) Si un fusible tiene un año y aún sigue funcionando, 
¿cuál es la probabilidad de que funcione dos años más? 


Una investigadora de catalizadores afirma que los diáme- 
tros, en micrones, de los poros de un nuevo producto que 
ella ha fabricado sigue una distribución exponencial con pa- 
rámetro A = 0.25. 


a) ¿Cuál es la media del diámetro de los poros? 


b) ¿Cuál es la desviación estándar de los diámetros de los 
poros? 


Cc) ¿Qué proporción de los poros tiene un diámetro menor 
a tres micrones? 


d) ¿Qué proporción de los poros tiene un diámetro mayor 
a 11 micrones? 


e) ¿Cuál es la mediana del diámetro de los poros? 
$) ¿Cuál es el tercer cuartil de los diámetros de los poros? 


8) ¿Cuál es el 990. percentil de los diámetros de los poros? 


Alguien argumenta que el tiempo de espera, en minutos, en- 
tre las visitas a un sitio web tiene una distribución exponen- 
cial con parámetro A = 1. 


a) Sea X el tiempo de espera hasta la siguiente visita. Si la 
afirmación es verdadera, ¿a qué es igual P(X = 5)? 


b) Con base en la respuesta al inciso (a), si la afirmación es 
verdadera, ¿esperar cinco minutos es un tiempo de espe- 
ra inusualmente largo? 
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c) Si usted hubiera esperado cinco minutos para que ocu- 
rriera la siguiente visita, ¿aún seguiría creyendo en la 
afirmación? Explique. 


Cierto tipo de componente puede ser comprado nuevo o 
viejo. El 50% de los componentes nuevos duran más de cin- 
co años, pero sólo 30% de los usados dura más de cinco 
años. ¿Sería posible que las duraciones de los componentes 
se distribuyan exponencialmente? Explique. 


Una masa radiactiva emite partículas de acuerdo con un 
proceso de Poisson a una razón media de dos por segundo. 
Sea T el tiempo de espera, en segundos, entre las emisiones. 
a) ¿Cuál es la media del tiempo de espera? 

b) ¿Cuál es la mediana del tiempo de espera? 

Cc) Determine P(T > 2). 

d) Determine P(T < 0.1). 

e) Determine P(0.3 < T < 1.5). 


f) Si han transcurrido tres segundos sin que haya ninguna 
emisión, ¿cuál es la probabilidad de que haya una emi- 
sión dentro del siguiente segundo? 


. Se considera que el número de accidentes de tránsito en 


cierta intersección sigue el modelo de un proceso de Pois- 
son con una media de tres accidentes al año. 


a) Determine la media del tiempo de espera entre los acci- 
dentes. 


b) Determine la desviación estándar de los tiempos de es- 
pera entre los accidentes. 


€ 


=u 


Determine la probabilidad de que transcurra más de un 
año entre un accidente y otro. 


d) Determine la probabilidad de que transcurra menos de 
un mes entre un accidente y otro. 


e) Si no ocurre ningún accidente en los últimos seis meses, 
¿cuál es la probabilidad de que suceda un accidente du- 
rante el siguiente año? 


La distancia entre imperfecciones consecutivas en un rollo 
de lámina de aluminio se distribuye exponencialmente con 
una distancia media de 3 m. Sea X la distancia, en metros, 
entre las imperfecciones. 


a) ¿Cuál es la media del número de imperfecciones por 
metro? 


b) ¿Cuál es la probabilidad de que cinco metros de alumi- 
nio tengan sólo dos imperfecciones? 


9. Una instalación de luz contiene cinco focos. La duración de 


cada foco se distribuye exponencialmente con una media 
de 200 horas. Cada vez que se funde un foco, éste se reem- 
plaza. Sea T el momento del primer reemplazo del foco. Sea 
Xi, ¡i=1,...,5 la duración de cinco focos. Suponga que 
la duración de los focos son independientes. 


a) Determine P(X, > 100). 
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d) Determine P(T = 100). 


e) T es cualquier número positivo. Encuentre P(T < f), 
¿cuál es la función de distribución acumulativa de T? 


f) ¿T tiene una distribución exponencial? 
£) Determine la media de 7. 


h) Si hubiera n focos, y la duración de cada uno se distri- 
buyera exponencialmente con parámetro A, ¿cuál sería 


b) Determine P(X, > 100 y X, > 100 y - - - y X5 > 100). la distribución de T? 


c) Explique por qué el evento T > 100 es el mismo que (X; 
> 100 y X, > 100 y - - - y X5 > 100). 


4.8 Las distribuciones gamma y de Weibull 


Las distribuciones gamma y de Weibull son extensiones de la distribución exponencial. Am- 
bas implican una integral conocida como la función gamma. Primero se define la función 
gamma y se establecen algunas de sus propiedades. 


Definición 
Para r > 0, la función gamma está definida por 


T()= il Ñ e (4.40) 
0 


La función gamma tiene las siguientes propiedades: 


1. Si res un entero, entonces I(r) = (r — 1)! 
2. Para cualquier r, (r + 1) = TT). 
3. T(12)= yr. 


La distribución gamma 


La distribución gamma es una distribución continua, uno de sus propósitos es ampliar la uti- 
lidad de la distribución exponencial en el modelado de tiempos de espera. La función de den- 
sidad de probabilidad gamma tiene dos parámetros, r y A, que son constantes positivas. 


Definición 
La función de densidad de probabilidad de la distribución gamma con parámetros 


r>0y1>0€s 
AAA 
x>0 


fa) = P(r) (4.41) 
0 x<0 
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Si X es una variable aleatoria cuya función de densidad de probabilidades gamma con 
parámetros r y A, se expresa como X — T(r, 1). Observe que cuando r = 1, la distribución 
gamma es igual a la exponencial. Con símbolos, (1, A) = Exp(A). La figura 4.18 muestra 
gráficas de la función de densidad de probabilidad gamma para varios valores de r y 2. 


FIGURA 4.18 Función de densidad de probabilidad gamma para varios valores de r y A. 


Cuando el parámetro r es un entero, la distribución gamma es una extensión directa de la 
distribución exponencial. Para ser más específicos, recuerde que si los eventos seguían un pro- 
ceso de Poisson con parámetro de razón A, el tiempo de espera hasta que ocurriera un evento 
se distribuía como Exp(A). Si r es cualquier entero positivo, entonces el tiempo de espera has- 
ta que haya ocurrido r eventos se distribuye como T'(r, A). Esto puede decirse de otra mane- 
ra. Sea X, el tiempo de espera hasta el primer evento, y, para ¿ > 1, sea X, el tiempo de espera 
entre los eventos ¡ — 1 e í. El tiempo de espera hasta el r-ésimo evento es la suma de las va- 
riables aleatorias independientes X, + + - - + X,, cada uno de los cuales se distribuye como 
ExXpú). 


S1X;,...,X, son variables aleatorias independientes, cada una se distribuye como 
Exp(), entonces la suma X, + + + - + X, se distribuye como IT'(r, A). 


Dado que la media y la varianza de una variable aleatoria exponencial está dada por 1/4 
y 1, respectivamente, se puede utilizar el hecho de que una variable aleatoria gamma es la 
suma de variables aleatorias exponenciales independientes para calcular la media y la varian- 
za de una variable aleatoria gamma en el caso en que r es un entero. Los resultados se pre- 
sentan en el siguiente cuadro, y de hecho, son válidos para todos los valores de r y 4. 
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Si X — T(r, A), entonces 


EA (4.42) 


=> (4.43) 


Suponga que los tiempos de llegada a una ventanilla de toma de órdenes desde el automóvil si- 
gue un proceso de Poisson con media de razón A = 0.2 llegadas por minuto. Sea T el tiempo de 
espera hasta la tercera llegada. Determine la media y varianza de T. Encuentre P(T = 20). 


Solución 

La variable aleatoria T se distribuye (3, 0.2). Utilizando las ecuaciones (4.42) y (4.43) se 
calcula uy = 3/0.2 = 15 y 07 = 3/(0.2?) = 75. Para calcular P(T <= 20) se sigue la siguiente 
lógica: T = 20 significa que el tercer evento ocurrirá dentro de 20 minutos. Esto es lo mismo 
que si se dijera que el número de eventos que ocurren dentro de 20 minutos es mayor que o 
igual a tres. Ahora, sea X el número de eventos que ocurren dentro de 20 minutos. Lo que se 
ha dicho es que P(T = 20) = P(X = 3). Ahora la media de X es (20)1(0.2) = 4 y X tiene una 
distribución de Poisson, por lo que X — Poisson(4). De ahí que 


P(T < 20) = P(X > 3) 
=1-P(X<2) 
=1-—[P(X =0)+ P(X = 1) + P(X = 2)] 
1 6 E +e E +€ 5) 
=1- (e *+4e *+8e*) 
= 0.7619 


El método empleado en el ejemplo 4.62 para determinar a P(T <= 20) se puede utilizar 
para determinar la función de distribución acumulativa F(x) = P(T <= x), cuando T — T(r, A) 
y res un entero positivo. 


Si T =— T(r, A) y r es un entero positivo, la función de distribución acumulativa de T 
está dada por 


F(x)=P(T<x)= 7 dá (4.44) 
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A una distribución gamma en la cual el parámetro r es un entero positivo se le denomi- 
na algunas veces distribución de Erlang. Si r = k/2 donde k es un entero positivo, a la dis- 
tribución T(r, 1/2) se le llama distribución Ji-cuadrada con k grados de libertad. La 
distribución Ji-cuadrada es muy importante en la inferencia estadística. Se analizarán algunos 
de sus usos en la sección 6.10. 


Distribución de Weibull 

La distribución de Weibull constituye una distribución continua que se utiliza en varias situa- 
ciones. Una aplicación común es modelar los tiempos de vida de componentes, como cojine- 
tes, cerámica, capacitores y dieléctricos. La función de densidad de probabilidad de Weibull 
tiene dos parámetros, ambos constantes positivas, que determinan su localización y forma. 
Éstos se representan por ar y B. La función de densidad de probabilidad de la distribución de 
Weibull es 


Japo x>0 
Fo) = lo x<0 (4.45) 


Si X es una variable aleatoria cuya función de densidad de probabilidad de Weibull con 
parámetros 0: y fB, se expresa como X — Weibull(a, $). Observe que cuando a = 1, la distri- 
bución de Weibull es igual que la distribución exponencial con parámetro A = f. Con símbo- 
los, Weibull(1, $) = Exp(6). 

La figura 4.19 muestra gráficas de la función de densidad de probabilidad de Weibull(oz, 
$B) para diversas opciones de los parámetros ar y B. Al variar los valores de oz y B se puede ge- 
nerar gran variedad de curvas. Debido a esto último, se puede construir la distribución de Wei- 
bull para que se ajuste a gran variedad de conjuntos de datos. Ésta es la principal razón de la 
utilidad de la distribución de Weibull. 


FIGURA 4.19 La función de densidad de probabilidad de Weibull para varias elecciones de « y f. 


La función de distribución acumulativa de Weibull se puede calcular al integrar la fun- 
ción de densidad de probabilidad: 
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il EN CS x>0 
F(x) =P(X<x)= 0 (4.46) 


0 x<0 
Esta integral no es tan difícil como parece. Sólo se sustituyen u = (Br” y du = ap" dr. 


La media y la varianza de la distribución de Weibull se expresan en términos de la fun- 
ción gamma. 


Si X — Weibull(a, f), entonces 


me zr (1 + -) (4.47) 


O 


Para el caso especial de que 1/0 sea un entero, entonces 
Se O (AN e 
==|( =)! D%= == == | ==)! 
ies Bla Xx pl Q a 


Si la cantidad 1/0 es un entero, entonces 1 + 1l/a y 1 + 2/0 son enteros, por lo que se 
puede aplicar la propiedad 1 de la función gamma para calcular exactamente a uz y 0%. Sila 
cantidad 1/0 es de la forma n/2, en donde n es un entero, entonces, en principio, se puede 
calcular exactamente ¡uy y oy mediante aplicaciones repetitivas de las propiedades 2 y 3 de la 
función gamma. Para otros valores de Q, uy y y deben ser aproximadas. Muchos programas 
de computación pueden hacer esto. 


En el artículo “Snapshot: A Plot Showing Program through a Device Development Labora- 
tory” (D. Lambert, J. Landwehr y M. Shyu, en Statistical Case Studies for Industrial Process 
Improvement, ASA-STAM, 1997), los autores sugieren utilizar una distribución de Weibull para 
modelar la duración de un proceso de horneado en la fabricación de un semiconductor. Sea T 
la duración en horas del proceso de horneado de una muestra elegida aleatoriamente. Si 
T — Weibull(0.3, 0.1), ¿cuál es la probabilidad de que el proceso de horneado dure más de 
cuatro horas? ¿Cuál es la probabilidad de que dure entre dos y siete horas? 


Solución 
Se utiliza la función de distribución acumulativa, ecuación (4.46). Al sustituir 0.3 por q y 0.1 
por $6, se tiene 


PT<9=1-e00% 


En consecuencia, 
P(T>4)=1-P(T<4) 
=1-(1-e 10001, 
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a 0.3 
=e (0.4) 


270-7597 
= 0.468 


La probabilidad de que el proceso dure entre dos y siete horas es 
PQ<T<D=P(T<T7D-P(T<2) 
= (1 ODO) _ q — ODO, 
= ¿ODA ¿OD 
0239 _ ON 


¿e pa 0 
e70:S170 _ ¿0.8985 


= 0.132 


Ejercicios para la sección 4.8 


1. Sea T — T(4, 0.5). a) Si T — Weibull(ax, B), encuentre h(2). 


a) Determine pur. 
b) Determine dy. 
c) Determine P(T <= 1). 
d) Determine P(T = 4). 


. La duración, en años, de un tipo de motor eléctrico peque- 
ño operando en condiciones adversas se distribuye expo- 
nencialmente con A = 3.6. Cada vez que falla un motor, es 
reemplazado por otro del mismo tipo. Determine la proba- 
bilidad de que menos de seis motores falle dentro de un año. 


. Sea T — Weibull(0.5, 3). 


a) Determine uy. 

a) Determine O. 

a) Determine P(T < 1). 

a) Determine P(T > 5). 

a) Determine PQ < T< 4). 


. Si Tes una variable aleatoria continua que siempre es posi- 
tiva (como el tiempo de espera), con una función de densi- 
dad de probabilidad f(t) y una función de distribución 
acumulativa F(t), entonces se define que la función de ries- 
go es la función 


0) 
1-F(t) 
La función de riesgo es la tasa de fallos por unidad de tiem- 


po, expresada como una proporción de los elementos que 
no ha fallado. 


h(t) = 


b) ¿En qué valores de d la función de riesgo aumenta jun- 
to con el tiempo? ¿En qué valores de « la función de 
riesgo disminuye? 

c) Si T tiene una distribución exponencial, demuestre que 
la función de riesgo es constante. 


. En el artículo “Parameter Estimation with Only One Com- 


plete Failure Observation” (W. Pang, P. Leung y colabora- 
dores, en International Journal of Reliability, Quality, and 
Safety Engineering, 2001:109-122), se modela la duración, 
en horas, de cierto tipo de cojinete con la distribución de 
Weibull con parámetros Y = 2.25 y B = 4.474x 10 *. 


a) Determine la probabilidad de que un cojinete dure más 
de 1 000 horas. 


b) Determine la probabilidad de que un cojinete dure me- 
nos de 2 000 horas. 


c) Determine la mediana de la duración de un cojinete. 


d) La función de riesgo se definió en el ejercicio 4. ¿Cuál 
es el riesgo en £ = 2 000 horas? 


. La duración de cierta batería se modela con la distribución 


de Weibull con 4 = 2 y B= 0.1. 


a) ¿Qué proporción de baterías durará más de diez horas? 


b) ¿Qué proporción de baterías durará menos de cinco ho- 
ras? 


c) ¿Qué proporción de baterías durará más de 20 horas? 


d) La función de riesgo se definió en el ejercicio 4. ¿Cuál 
es el riesgo en t = 10 horas? 


7. La duración de un ventilador, en horas, que se usa en un sis- 


tema computacional tiene una distribución de Weibull con 
o.= 1.5 y PB= 0.0001. 


a) ¿Cuál es la probabilidad de que un ventilador dure más 
de 10 000 horas? 


b) ¿Cuál es la probabilidad de que un ventilador dure me- 
nos de 5 000 horas? 


Cc) ¿Cuál es la probabilidad de que un ventilador dure entre 
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e) Con base en su respuesta al inciso (d), si el modelo es 
correcto, ¿90 días sería una duración inusualmente cor- 
ta?, ¿una duración inusualmente larga? Explique. 


f) Si usted observó que un componente duró 90 días, ¿con- 
sideraría que este modelo es plausible? Explique. 


. Un sistema consiste de dos componentes conectados en se- 


rie. El sistema fallará cuando alguno de los componentes fa- 
lle. Sea T el momento en el que el sistema falla. Sean X, y 


X» las duraciones de los dos componentes. Suponga que X, 
y X, son independientes y que cada uno sigue una distribu- 
ción de Weibull con a = 2 y 6 = 0.2. 


3 000 y 9 000 horas? 


8. Alguien sugiere que la duración T (en días) de cierta com- 
ponente se puede modelar con una distribución de Weibull a) Determine P(X, > 5). 


con parámetros 4 = 3 y B= 0.01. . 
b) Determine P(X, > 5 y X, > 5). 


a) Si este modelo es correcto, ¿a qué es igual P(T < 1)? c) Explique por qué el evento T > 5 es el mismo que el 


b) Con base en su respuesta al inciso (a), si el modelo es evento (X, > 5 y X2 > 5). 


correcto, ¿un día sería una duración inusualmente corta? d) Determine P(T = 5). 


Explique. e) Sea f cualquier número positivo. Encuentre P(T < 1), 


c) Si usted observó que un componente duró un día, ¿con- ¿cuál es la función de distribución acumulativa de 7? 


sideraría que este modelo es plausible? Explique. f) ¿T tiene una distribución de Weibull? Si es así, ¿cuáles 


d) Si este modelo es correcto, ¿a qué es igual P(T <= 90)? son sus parámetros? 


4.9 Gráficas de probabilidad 


Los científicos e ingenieros trabajan con frecuencia con datos que se pueden considerar co- 
mo una muestra aleatoria de cierta población. En muchos de dichos casos, es importante de- 
terminar una distribución de probabilidad que describa aproximadamente la población. En 
algunos casos, el conocimiento del proceso que generó los datos puede orientar la decisión. 
No obstante, con mayor frecuencia, la única forma de determinar una distribución apropiada 
es examinar la muestra para encontrar una distribución de probabilidad que se ajuste. 

Las gráficas de probabilidad son una buena forma para lograrlo. Dada una muestra 
aleatoria X,, ...,X,, una gráfica de probabilidad puede determinar si es posible que la mues- 
tra provenga de alguna población específica. Se presentará la idea que está detrás de las grá- 
ficas de probabilidad con un ejemplo simple. Se extrae una muestra aleatoria de tamaño 5 y 
se desea determinar si la población de que proviene es normal. La muestra, en orden ascen- 
dente, es 


3.01, 3.35, 4.79, 5.96, 7.89 


Los valores, en orden ascendente, se denotan por X;,...,X, (n = 5 en este caso). Lo prime- 
ro que debe hacerse es asignar valores crecientes espaciados uniformemente entre 0 y l a X,. 
Hay muchas maneras aceptables de hacer esto; probablemente la más simple es asignar el va- 
lor (¿ — 0.5)/n a X,. La siguiente tabla muestra la asignación para determinada muestra. 
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¡ X; (i- 0.5)/5 
1 3.01 0.1 
2 3.39 0.3 
3 4.79 0.5 
4 5.96 0.7 
5 7.89 0.9 


Se elige al valor (i — 0.5)/n para que refleje la posición de X; en la muestra ordenada. Exis- 
ten i — 1 valores menores que X;, además de í valores menores que o iguales a X;. La canti- 
dad (i — 0.5)/n es un compromiso entre las proporciones (i — 1)/n e i/n. 

El objetivo es determinar si es posible que la muestra provenga de una población nor- 
mal. La distribución normal más factible es aquella donde la media y desviación estándar son 
iguales a la media y desviación estándar muestrales. La media muestral es X = 5.00 y la des- 
viación estándar es s = 2.00. Por tanto, se determinará si es posible que esta muestra proven- 
ga de una distribución N(S, 2%) La figura 4.20 es una gráfica de los cinco puntos (X;, (i — 
0.5)/5). Esta curva es la función de distribución acumulativa (fda) F(x) de la distribución 
M5, 2 Recuerde que F(x) = P(X <= x) donde X — M5, 25) 


FIGURA 4.20 La curva es la fda de M(5, 2%). Si los puntos muestrales X,,..., X, provienen 
de esta distribución, es probable que estén cerca de la curva. 


Se han trazado rectas horizontales a través de los puntos de la muestra. Se denotan los va- 
lores x de los puntos de la fda que son atravesados por rectas, en orden ascendente, por Q,,..., 
O;. Ahora, la recta horizontal que pasa por (X,, 0.1) intercepta a la fda en el punto (O, 0.1). 
Lo anterior significa que la proporción de valores en la población N(5, 25 que es menor que 
o igual a O, es 0.1. Otra forma de decir esto es que O, es el 100. percentil de la distribución 
NG, 25 Si la muestra X,, . .., X, verdaderamente proviene de una distribución N(S, en 
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entonces es razonable pensar que el valor más bajo de la muestra, X,, estará muy cerca del 
100. percentil de la población. De forma intuitiva, la razón de esto último es que se esperaría 
que el más bajo de los cinco puntos probablemente proviniera del quinto más bajo, o 20%, de 
la población, y que el 100. percentil se encontrará a la mitad de ese 20% más bajo. Al aplicar 
la misma lógica a los puntos restantes, se esperaría que cada O, se aproximara a su X, corres- 
pondiente. 

La gráfica de probabilidad está compuesta por los puntos (X;, Qi). Puesto que la dis- 
tribución que generó los O, era una distribución normal, se le llama gráfica de probabilidad 
normal. Si, de hecho, X;, ..., X, provienen de la distribución que generó los O,, los puntos 
se deben concentrar en una línea recta. Para construir la gráfica, se deben calcular los Q,. És- 
tos son los percentiles 100(1 — 0.5)/n de la distribución que se supone generó la muestra. En 
este ejemplo, los O, son el 10, 30, 50, 70 y 900. percentiles de la distribución M5, 22). Es po- 
sible aproximar estos valores al buscar los puntajes z correspondientes a estos percentiles, y 
después convertirlos en nuevos puntajes. En la práctica, los O, se calculan siempre utilizando 
un software computacional. La siguiente tabla muestra los X; y los O, para este ejemplo. 


¡ Xi Q; 
1 3.01 2.44 
2 3.35 3.95 
3 4.79 5.00 
4 5.96 6.05 
5 7.89 7.56 
La figura 4.21 presenta una gráfica de probabilidad normal para la muestra X,,..., X. 


Se traza una línea recta en la gráfica, para que sea más fácil decir si los puntos se aproximan 


12 T T 
0.999 + J 
10 P J 09L An 
0.95 + 
sl 7 09H 5 
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0.5 p all 
4t e 7 0.25 P e 'l 
e 01pe 7 
2F 7 005+ -] 
UB | 001 tb - 
0.001 FP Z 
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3 4 5 6 y 8 3 4 5 6 7 8 
FIGURA 4.21 Gráficas de probabilidad normal para la muestra X,,.. ., X;. Las gráficas son idénticas, excepto por la es- 


cala del eje vertical. Los puntos de la muestra se aproximan a una línea recta, por lo que es factible que provengan de una 


población normal. 
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o no a una línea recta. Se presenta dos versiones de la gráfica; son idénticas excepto por la es- 
cala del eje vertical. En la gráfica de la izquierda, los valores del eje vertical representan los 
O;. En la gráfica de la derecha, los valores del eje vertical representan los percentiles (como 
decimales, por lo que 0.1 es el 100. percentil) de los O,. Por ejemplo, el 100. percentil de N(S3, 2) 
es 2,44, de tal forma que el valor 0.1 en la gráfica de la derecha corresponde al valor 2.44 de 
la gráfica de la izquierda. El 500. percentil, o mediana, es 5, por lo que el valor 0.5 en la gráfi- 
ca de la derecha corresponde al valor 5 de la gráfica de la izquierda. A menudo, los software 
escalan al eje vertical como en la gráfica de la derecha. En la figura 4.21, los puntos de la mues- 
tra se aproximan a la recta; por tanto, es muy factible que la muestra provenga de una distri- 
bución normal. 

Es importante mencionar que a los puntos Q;,...., O, se les denomina cuantiles de la 
distribución de la que son generados. Algunas veces, a los puntos X;, ..., X, se les llama 
cuantiles empíricos. Por esta razón, algunas veces se hace referencia a la gráfica de proba- 
bilidad como gráfica cuantil-cuantil, o gráfica QQ. 

En este ejemplo, se utiliza una muestra de sólo cinco puntos para que los cálculos sean 
claros. En la práctica, las gráficas de probabilidad funcionan mejor con muestras más gran- 
des. Una buena regla general es que se necesiten al menos 30 puntos antes de confiar en una 
gráfica de probabilidad. No obstante, las gráficas de probabilidad se pueden utilizar en mues- 
tras más pequeñas, pero sólo detectarán desviaciones muy pronunciadas de la normalidad. 

La figura 4.22 muestra dos gráficas de probabilidad. La gráfica en la figura 4.22a es de 
las producciones mensuales de 225 pozos de gas. Estos datos no se aproximan a una línea rec- 
ta; por consiguiente, no provienen de una población que se aproxima a la normal. La gráfica 
en la figura 4.22b es de los logaritmos naturales de las producciones mensuales. Los datos se 
aproximan mucho más a una línea recta, aunque se puede ver cierta desviación de la norma- 
lidad. (La figura 4.16 de la sección 4.6 presenta los histogramas de estos datos.) 


1 l | 
500 1 000 1 500 
a) 


FIGURA 4.22 Dos gráficas de probabilidad normal. (a) Gráfica de producciones mensuales de 225 pozos de gas. Estos da- 
tos no se aproximan a una línea recta y, por tanto, no provienen de una población que se aproxima a la normal. (b) Gráfica 
de los logaritmos naturales de las producciones mensuales. Estos datos se aproximan mucho más a una línea recta, aunque 
se puede ver cierta desviación de la normalidad. Véase en la figura 4.16 los histogramas de estos datos. 
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Interpretación de las gráficas de probabilidad 


Es mejor no utilizar métodos estrictos e inamovibles en el momento de interpretar una gráfi- 
ca de probabilidad. La rectitud de la gráfica se puede aproximar a simple vista. Cuando se de- 
cide si los puntos de una gráfica de probabilidad se aproximan o no a una línea recta, no preste 
mucha atención a los puntos en los extremos (superior o inferior) de la muestra, a menos que 
estén muy alejados de la recta. Es común que algunos puntos en cualesquiera de los extremos 
se desvíen un poco de la recta. Sin embargo, un punto que se aleja demasiado de la recta, 
mientras que la mayoría de los otros puntos están cerca, representa un dato atípico y merece 
atención. 


Ejercicios para la sección 4.9 


1. Cada una de las tres muestras fueron graficadas sobre una gráfica de probabilidad normal. Para cada una, diga si la muestra pa- 
rece provenir de una población aproximadamente normal. 


0.999 4 0.999 + 
0.99 3] 09 
0.95 4 0.95+ 

0.9 7 0.9F 
0.75 4 075p 
0.5 Y ost 
0.25 3 025p 
0.1 El 0.1L 
0.05f $? J  005f 
0.01 E 7 0.01 E 
0.001 4 0.001 F 
a) 
0.999 + 
0.99 , y 
0.95 p 0 
0.9 F 
0.75 F 
0.5 p 
0.25 F 
0.1 p 
0.05 F 
0.01 E 
¡e 
0.001 F 
c) 

2. Construya una gráfica de probabilidad normal para los da- 41 18 32 19 46 20 45 3.9 43 2.3 
tos de las barras de jabón del ejercicio 1 en la sección 1.3. 3.8 19 46 18 4.7 18 4.6 1.9 3.5 4.0 
¿Parece ser que estos datos provienen de una distribución 37 37 43 3.6 38 3.8 3.8 25 4.5 4.1 
aproximadamente normal? 3.7 38 34 40 23 44 4.1 43 33 2.0 

3. A continuación se muestran las duraciones (en minutos) de Construya una gráfica de probabilidad normal para estos 
40 erupciones del geiser Old Faithful en el Parque Nacional datos. ¿Parece ser que estos datos provienen de una distri- 


Yellowstone. bución aproximadamente normal? 
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4. A continuación se muestran las duraciones (en minutos) de 


40 intervalos entre las erupciones del geiser Old Faithful en 
el Parque Nacional Yellowstone. 


91 51 79 53 82 51 76 82 84 53 
86 51 85 45 88 51 80 49 82 75 
73 67 68 86 72 75 75 66 84 70 
79 60 86 71 67 81 76 83 76 55 


Construya una gráfica de probabilidad normal para estos 
datos. ¿Parece ser que estos datos provienen de una distri- 
bución aproximadamente normal? 
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5. Construya una gráfica de probabilidad normal para los da- 


tos MP de la tabla 1.2. ¿Parece ser que las MP vienen de 
una distribución aproximadamente normal? 


. Construya una gráfica de probabilidad normal para los lo- 


garitmos de los datos MP en la tabla 1.2. ¿Parece ser que los 
logaritmos de los datos MP vienen de una distribución apro- 
ximadamente normal? 


. ¿Se puede utilizar la gráfica en el ejercicio 6 para determi- 


nar si parece ser que los datos MP vienen de una población 
lognormal? Explique. 


4.10 El teorema del límite central 


El teorema del límite central es, por mucho, el resultado más importante en estadística. Mu- 
chos de los métodos estadísticos comúnmente empleados basan su validez en este teorema. 
El teorema del límite central establece que si se extrae una muestra lo suficientemente gran- 
de de una población, entonces la distribución de la media muestral es aproximadamente nor- 
mal, sin importar de qué tipo de población haya sido extraída la muestra. Esto último permite 
calcular las probabilidades de medias muestrales haciendo uso de la tabla z, a pesar de que la 
población de la cual se sacó la muestra no sea normal. A continuación se explica lo anterior 
con más detalle. 

Sea X¡,..., X, una muestra aleatoria simple de una población con media u y varianza 
0. SeaX = (X, + :** + X,)/n la media muestral. Ahora imagine que se extraen muchas de 
esas muestras y se calculan sus medias muestrales. Si se pudiera extraer cada muestra posible 
de tamaño n de la población original, y calcular la media muestral para cada una, la colección 
resultante sería la población de medias muestrales. Se puede construir la función de densidad 
de probabilidad de esta población. También es factible observar que la forma de esta función de 
densidad de probabilidad dependería de la forma de la población de la cual se extrajo la mues- 
tra. Lo sorprendente es que si el tamaño de ésta es suficientemente grande esto no es así. Si 


El teorema del límite central 


SeaX;,...,X, una muestra aleatoria simple de una población con media uu y varian- 
za 07. 
> Xi+o 0 +X, 
SeaX = la media muestral. 
Sea S, = X, +: + X, la suma de las observaciones muestrales. 


Entonces si n es suficientemente grande 


=> o? 
X=N|u,— 
n 


Sn - Ny, no?) aproximadamente 


aproximadamente (4.49) 


(4.50) 
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el tamaño de la población fuera muy grande, la distribución de la media muestral sería apro- 
ximadamente normal, sin importar la distribución de la población de la cual se sacó la muestra. 

Observe que el teorema del límite central especifica que uy = u y oz = a/n, lo cual 
es válido para cualquier media muestral. La suma de las unidades de la muestra es igual a la 
mea Ap ucada por el tamaño muestral, esto es, S,, = nx. De ahí que Ls, = np y 05, = 
nio “In = no” (véanse las ecuaciones 2.41 y 2.42 de la sección 2.5). 

El teorema del límite central establece que X y S,, se distribuyen aproximadamente co- 
mo normales, si el tamaño muestral n es suficientemente grande. La cuestión natural por pre- 
guntar es: ¿Qué tan grande es suficientemente grande? La respuesta depende de la forma de 
la población principal. Si se extrae la muestra de una distribución aproximadamente simétri- 
ca, la aproximación normal puede ser buena, incluso para un valor muy pequeño de n. No obs- 
tante, si la población está demasiado sesgada, puede ser necesaria una n muy grande. La 
evidencia empírica sugiere que para la mayoría de las poblaciones, un tamaño de muestra de 
30 o más es lo suficientemente grande para que la aproximación normal sea adecuada (véase 
la figura 4.23). 


Para la mayoría de las poblaciones, si el tamaño muestral es mayor a 30, la aproxi- 
mación del teorema del límite central es buena. 


Sea X el número de imperfecciones en una pulgada de un alambre de cobre. La función de 
masa de probabilidad de X se muestra en la siguiente tabla. 


Xx P(X = x) 
0 0.48 
1 0.39 
2 0.12 
3 0.01 


Se toma una muestra de 100 alambres de esta población. ¿Cuál es la probabilidad de que el 
número promedio de imperfecciones por alambre en esta muestra sea menor a 0.5? 


Solución 

La media del número de imperfecciones en la población es yu = 0.66 y la varianza poblacio- 
nal es 0? = 0.5244. Véase en los ejemplos 2.35 y 2.36 (en la sección 2.4) el cálculo de estas 
cantidades. X;, ... , X¡pp denota el número de imperfecciones en los 100 alambres extraídos 
de esta población. Se necesita encontrar P(X < 0.5). Ahora, el tamaño muestral es n = 100, 
que es una muestra grande. Por el teorema del límite central (expresión 4.49) se tiene que 
X — N(0.66, 0.005244). Por tanto, el puntaje z es 


0.5 — 0.66 
Z == == = 
1 0.005244 


De la tabla z, el área a la izquierda de —2.21 es 0.0136. Por consecuencia, P(X < 0.5) = 
0.0136, por lo que sólo 1.36% de las muestras de tamaño 100 tendrá menos de 0.5 imperfec- 
ciones por alambre. Véase la figura 4.24. 


—2.21 
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FIGURA 4.23 La gráfica de la extrema izquierda en cada fila es la distribución (función de densidad de probabilidad o fun- 
ción de masa de probabilidad) de una variable aleatoria. Las dos gráficas a la derecha son las distribuciones de la media 
muestral (línea continua) para muestras de tamaños 5 y 30, respectivamente, con la curva normal (línea discontinua) sobre- 
puesta. Fila superior: Dado que la distribución original es aproximadamente simétrica, la aproximación normal es buena 
incluso para un tamaño de muestra tan pequeño como cinco. Fila de en medio: La distribución original está algo sesgada. 
Aun así, la aproximación normal es razonablemente buena incluso para una muestra de tamaño 5, y muy buena para una 
muestra de tamaño 30. Fila inferior: La distribución original está muy sesgada. La aproximación normal no es buena para 
una muestra de tamaño 5, pero es razonablemente buena para una muestra de tamaño 30. Observe que dos de las distribu- 
ciones originales son continuas y una discreta. El teorema del límite central es válido tanto para las distribuciones continuas 
como para las discretas. 


E Jemplo 
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0.0136 


0.50 0.66 
z= =2,21 


FIGURA 4.24 Solución al ejemplo 4.64. 


Observe que en el ejemplo 4.64 se necesita conocer sólo la media y la varianza de la 
población, no la función de masa de probabilidad. 


En una universidad grande, la media de la edad de los estudiantes es 22.3 años y la desvia- 
ción estándar es de cuatro años. Se toma una muestra aleatoria de 64 estudiantes. ¿Cuál es la 
probabilidad de que la edad promedio de estos estudiantes sea mayor a 23 años? 


Solución 

Sean Xy, .. . , X6, las edades de los 64 estudiantes en la muestra. Se desea determinar P(X > 
23). Ahora la población de la cual se sacó la muestra tiene una media 4 = 22,3 y varianza 
a? = 16. El tamaño muestral es n = 64. Por el teorema del límite central (expresión 4.49) se 
tiene que X — N(22.3, 0.25). El puntaje z para 23 es 


De la tabla z, el área a la derecha de 1.40 es 0.0808. Por tanto, P(X. > 23) = 0.0808. Véase 
la figura 4.25. 


0.0808 


_ Mí 


22.3 23.0 
z=1.4 


FIGURA 4.25 Solución al ejemplo 4.65. 


Aproximación normal a la binomial 
Recuerde de la sección 4.2, que si X — Bin(n, p), entonces X = Y, + *** + Y,, donde Y,,..., Y, 


> n 


es una muestra de una población de Bernoulli(p). Por consiguiente, X es la suma de los datos 
de la muestra. La proporción muestral es 
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Xx Hibndr 


p= = 
n n 


que es también la media muestral Y. La población de Bernoulli(p) tiene una media yu = p y 
una varianza 0? = p(1 — p). Por el teorema del límite central se tiene que si el número de ex- 
perimentos n es grande, entonces X — N(mp, np(1 — p)) y Pp — N(p, pl — pm). 

Nuevamente surge la cuestión, ¿qué tan grande es lo suficientemente grande? En el ca- 
so binomial, la exactitud de la aproximación normal depende del número promedio de éxitos 
np y del número promedio de fracasos n(1 — p). Entre más grandes sean los valores de np y 
n(1 — p), mejor será la aproximación. Una regla general es utilizar la aproximación normal 
cada vez que np > 5 y n(1 — p) > 5. Una regla mejor y más prudente es utilizar la aproxi- 
mación normal cada vez que np > 10 y n(1 — p) > 10. 


Si X — Bin(n, p) y si np > 10 y n(1 — p) > 10, entonces 


X = Ní(np, np(l — p)) aproximadamente (4.51) 


A 1 — 
p=N (». a) aproximadamente (4.52) 
n 


Para mostrar la exactitud de la aproximación normal a la binomial, la figura 4.26 mues- 
tra el histograma de probabilidad Bin(100, 0.2) con la función de densidad de probabilidad 
NQO0, 16) sobrepuesto. Aunque se puede detectar cierto grado de asimetría en la distribución 
binomial, la aproximación normal es muy buena. 

0.1 7 
0.08 - 


0.06 F 


0.04 - 


pl did dol dol Jud Pod Sot dul dd dad 5 op 
0 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 


loro A 
02456581 


FIGURA 4.26 El histograma de probabilidad Bin(100, 0.2), con la función de densidad de pro- 
babilidad NAO, 16) sobrepuesta. 
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Corrección por continuidad 


La distribución binomial es discreta, mientras que la distribución normal es continua. La co- 
rrección por continuidad es un ajuste, hecho cuando se aproxima una distribución discreta 
con una continua, que puede mejorar la exactitud de la aproximación. Para ver cómo funcio- 
na, imagine que se lanza al aire una moneda 100 veces. Sea X el número de caras. Entonces 
X — Bin(100, 0.5). Imagine que se desea calcular la probabilidad de que X esté entre 45 y 55. 
Esta probabilidad diferirá dependiendo si se incluye o excluye los puntos finales, 45 y 55. La 
figura 4.27 ilustra el caso en el que se incluye los puntos finales; es decir, en el que se quie- 
re estimar P(45 <= X < 55). La probabilidad exacta está dada por el área total de los rectán- 
gulos del histograma de probabilidad binomial correspondientes, incluyendo a los enteros 45 
y 55. Se sobrepone la curva normal aproximada. Para obtener una mejor aproximación se de- 
be calcular el área bajo la curva normal entre 44.5 y 55.5. En contraste, la figura 4.28 mues- 
tra el caso en el que se desea calcular P(45 < X < 55). Aquí se incluye los puntos finales. La 
probabilidad exacta está dada por el área total de los rectángulos del histograma de probabi- 
lidad binomial correspondientes a los enteros 46 al 54. La mejor aproximación normal se en- 
cuentra al calcular el área bajo la curva normal entre 45.5 y 54.5. 


0 | | | ] 1 
40 45 50 55 60 


FIGURA 4.27 Para calcular P(45 <= X <= 55) deben incluirse las áreas de los rectángulos corres- 
pondientes a 45 y 55. Para aproximar esta probabilidad con la curva normal, se calcula el área ba- 
jo la curva entre 44.5 y 55.5. 


En resumen, para aplicar la corrección por continuidad, determine qué rectángulos del 
histograma de probabilidad discreta desea incluir, y después calcule el área bajo la curva nor- 
mal que corresponde a estos rectángulos. 


Si se lanza al aire una moneda 100 veces, utilice la curva normal para aproximar la probabi- 
lidad de que el número de caras esté entre, e incluyendo a, 43 y 55. 
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FIGURA 4.28 Para calcular P(45 < X < 55) se debe excluir las áreas de los rectángulos 
correspondientes a 45 y a 55. Para aproximar esta probabilidad con la curva normal, se 
calcula el área bajo la curva entre 45.5 y 54.5. 


Solución 

La figura 4.27 muestra esta situación. Sea X el número de caras obtenidas. Entonces 
X — Bin(100, 0.5). Al sustituir n = 100 y p = 0.5 en la ecuación (4.51) se obtiene la aproxi- 
mación normal X — N(50, 25). Puesto que se incluyen los puntos finales 45 y 55, debe calcu- 
larse el área bajo la curva normal entre 44.5 y 55.5. Los puntajes z para 44.5 y 55.5 son 


44.550 555 =50 
ga A, | pas 
5 5 


1.1 


De la tabla z se determina que la probabilidad es 0.7286. Véase la figura 4.29. 


0.7286 


44.5 50 55.5 
z==—1,] z=1,1 


FIGURA 4.29 Solución al ejemplo 4.66. 


Ejemplo 


4.67 Si se lanza al aire 100 veces una moneda, utilice la curva normal para aproximar la probabi- 
a lidad de que el número de caras está entre, y excluyendo a, 45 y 55. 
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Solución 

La figura 4.28 muestra esta situación. Sea X el número de “caras” obtenidas. Al igual que en 
el ejemplo 4.66, X — Bin(100, 0.5), y la aproximación normal es X — N(50, 25). Como con- 
secuencia de que se excluyen los puntos finales 45 y 55, se debe calcular el área bajo la cur- 
va normal entre 45.5 y 54.5. Los puntajes z para 45.5 y 54.5 son 


45.5 — 50 54.5 — 50 
pS A E 20 


De la tabla z se determina que la probabilidad es 0.6318. Véase la figura 4.30. 


0.6318 


| 
45.5 50 54.5 
zZ= 0.9 z= 0.9 


FIGURA 4.30 Solución al ejemplo 4.67. 


En cierta universidad grande, 25% de los estudiantes tiene más de 21 años de edad. En una 
muestra de 400 estudiantes, ¿cuál es la probabilidad de que más de 110 supere los 21 años? 


Solución 

Sea X el número de estudiantes que tiene más de 21 años. Entonces X — Bin(400, 0.25). Pue- 
de utilizarse la aproximación normal, la cual es X — N(100, 75). Ya que se desea determinar 
la probabilidad de que el número de estudiantes sea mayor que 110, se excluye al valor 110. 
Por tanto, se determina P(X > 110.5). Se calcula el puntaje z para 110.5, el cual es 


110.5 — 100 
Z= ———— 
v75 


Utilizando la tabla z se determina que P(X > 110.5) = 0.1131. Véase la figura 4.31. 


= 1.21 


0.1131 


| 
100 110.5 
z=1.21 


FIGURA 4.31 Solución al ejemplo 4.68. 
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Exactitud de la corrección por continuidad 


La corrección por continuidad mejora, en la mayoría de los casos, la exactitud de la aproxi- 
mación normal a la distribución binomial. Sin embargo, para distribuciones binomiales con n 
grande y p pequeña, cuando se calcula una probabilidad que corresponda a un área en la co- 
la de la distribución, la corrección por continuidad puede, en algunos casos, reducir en algo la 
exactitud de la aproximación normal. Esto resulta del hecho de que la aproximación normal 
no es perfecta; no puede explicar un pequeño grado de asimetría en estas distribuciones. En 
suma, el uso de la corrección por continuidad hace que la aproximación normal a la distribu- 
ción binomial sea mejor en la mayoría de los casos, pero no en todos. 


Aproximación normal a la de Poisson 


Recuerde que si X — Poisson(A), entonces X es aproximadamente binomial con n grande y 
np = h. Recuerde también que uy = A y 0% = 2. De ahí que si 2 es suficientemente grande, 
es decir, A > 10, entonces X es aproximadamente binomial, con np > 10. Por el teorema del 
límite central se tiene que X es también aproximadamente normal, con media y varianza igual 
a A. Por tanto, puede utilizarse la distribución normal para aproximar a la de Poisson. 


Si X — Poisson(A), donde A > 10, entonces 


X-NG, A», aproximadamente (4.53) 


Corrección por continuidad para la distribución de Poisson 


Dado que una distribución de Poisson es discreta, la corrección por continuidad puede, en 
principio, aplicarse cuando se utiliza la aproximación normal. Para las áreas que incluyen la 
parte central de la curva, la corrección por continuidad generalmente mejora la aproximación 
normal, pero para las áreas de las colas la corrección por continuidad algunas veces empeora 
la aproximación. No se utilizará la corrección por continuidad para la distribución de Poisson. 


El número de visitas a un sitio web sigue una distribución de Poisson, con una media de 27 
visitas por hora. Encuentre la probabilidad de que haya 90 o más visitas durante tres horas. 


Solución 

Sea X el número de visitas al sitio web en tres horas. La media del número de visitas en tres 
horas es 81, por lo que X — Poisson(81). Utilizando la aproximación normal X — N(81, 81). 
Se desea encontrar P(X = 90). Se calcula el puntaje z de 90, que es 


Haciendo uso de la tabla z se determina que P(X = 90) = 0.1587. Véase la figura 4.32. 
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0.1587 


sl 90 


FIGURA 4.32 Solución al ejemplo 4.69. 


Ejercicios para la sección 4.10 


1. Las bolsas de una mezcla de concreto, etiquetadas con un 


peso de 100 libras, tienen por peso una media poblacional 
de 100 libras y una desviación estándar poblacional de 0.5 
libras. 


a) ¿Cuál es la probabilidad de que la media del peso de una 
muestra aleatoria de 50 bolsas sea menor a 99.9 libras? 


b) Si la media del peso de poblacional aumenta a 100.15 li- 
bras, ¿cuál es la probabilidad de que la media del peso 
de una muestra de tamaño 50 sea menor a 100 libras? 


. Un libro de 500 páginas tiene 250 hojas de papel. El espe- 
sor del papel utilizado para fabricar el libro tiene una media 
de 0.08 mm y una desviación estándar de 0.01 mm. 


a) ¿Cuál es la probabilidad de que un libro seleccionado 
aleatoriamente tenga un espesor mayor a 20.2 mm (sin 
incluir las portadas)? 

b) ¿Cuál es el 100. percentil del espesor del libro? 


c) Alguien quiere conocer la probabilidad de que una pági- 
na elegida aleatoriamente tenga un espesor mayor a 0.1 
mm. ¿Se tiene la suficiente información para calcular 
esta probabilidad? Si es así, calcule la probabilidad. Si 
no, explique por qué. 


. Se elige una muestra aleatoria de 100 hombres con una es- 
tatura media de 70 pulgadas y una desviación estándar de 
2.5 pulgadas. ¿Cuál es la probabilidad de que la estatura 
promedio de los hombres de la muestra sea mayor a 69.5 
pulgadas? 


. Entre todas las formas de declaración de ingresos para el 
pago de impuestos, llenadas en cierto año, la media del im- 
puesto pagado fue de $2 000 y la desviación estándar fue de 
$500. Además, en 10% de las formas, el impuesto pagado 
fue mayor a $3 000. Se toma una muestra aleatoria de 625 
formas de declaración de ingresos para el pago de impuestos. 


a) ¿Cuál es la probabilidad de que el impuesto promedio 
pagado en las formas de la muestra sea mayor a $1 980? 


b) ¿Cuál es la probabilidad de que más de 60 de las formas 
de la muestra tenga un impuesto mayor a $3 000? 


. Se extrae una muestra de 225 alambres de la población de 


alambres descrita en el ejemplo 4.64 (p. 271). Encuentre la 
probabilidad de que menos de 110 de éstos no tengan im- 
perfección. 


. Unos tambores, con una etiqueta de 30 L, son llenados con 


una solución proveniente de una tina grande. Se agrega una 
cantidad aleatoriamente de la solución en cada tambor con 
media de 30.01 L y desviación estándar de 0.1 L. 


a) ¿Cuál es la probabilidad de que la cantidad total de la 
solución contenida en 50 tambores sea mayor a 1 500 L? 


b) Si la cantidad total de la solución en la tina es de 2 401 
L, ¿cuál es la probabilidad de que puedan llenarse 80 
tambores sin que se acabe la solución? 


c) ¿Cuánta solución debe contener la tina para que la pro- 
babilidad sea 0.9 de que puedan llenarse 80 tambores 
sin que se acabe la solución? 


. Cierto proceso de fabricación de componentes electrónicos 


produce partes, 20% de las cuales está defectuoso. Las par- 
tes son enviadas en unidades de 400. Los envíos que contie- 
nen más de 90 partes defectuosas se puede regresar. Usted 
puede suponer que cada envío constituye una muestra alea- 
toria simple de partes. 


a) ¿Cuál es la probabilidad de que se regrese un envío es- 
pecífico? 


b) En un día particular se realizaron 500 envíos. ¿Cuál es 
la probabilidad de que se regresen 60 o más de éstos? 
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8. 


10. 


c) Se introduce un nuevo proceso de fabricación, el cual se 
supone reduce los porcentajes de las partes defectuosas. 
El objetivo de la compañía es reducir la probabilidad de 
que se regrese un envío a 0.01. ¿Cuál debe ser el porcen- 
taje de partes defectuosas para alcanzar este objetivo? 


Verdadero o falso: 


a) Con una muestra grande, el histograma de la muestra se 
parecerá mucho a la curva normal. 


b) Con una muestra grande, la función de densidad de pro- 
babilidad de la media muestral se parecerá mucho a la 
curva normal. 


La densidad de las partículas en una suspensión es de 50 por 
mL. Se extrae un volumen de 5 mL de la suspensión. 


a) ¿Cuál es la probabilidad de que el número de partículas 
extraídas esté entre 235 y 265? 


b) ¿Cuál es la probabilidad de que el número promedio de 
partículas por mL en la muestra extraída esté entre 48 y 


527 


c) Si se toma una muestra de 10 mL, ¿cuál es la probabili- 
dad de que el número promedio por mL de partículas en 
la muestra extraída esté entre 48 y 52? 


d 


= 


¿Qué tan grande debe ser la muestra extraída para que el 
número promedio de partículas por mL en la muestra es- 
té entre 48 y 52 con probabilidad de 95%? 


Un productor de baterías afirma que la duración de cierto ti- 
po de batería tiene una media poblacional de 40 horas y des- 
viación estándar de cinco horas. Sea X' la duración promedio 
de las baterías en una muestra aleatoria simple de tamaño 
100. 


a) Si la afirmación es cierta, ¿cuál es PX = 36.7)? 


b) Con base en la respuesta al inciso a), si la afirmación es 
cierta, ¿una media muestral de 36.7 horas sería una du- 
ración inusualmente corta? 


c) Si la duración media de la muestra de las 100 baterías 
fuera de 36.7 horas, ¿usted creería en la afirmación del 
fabricante? Explique. 


d) 
e) Con base en la respuesta al inciso d), si la afirmación es 


cierta, ¿una media muestral de 39.8 horas sería una du- 
ración inusualmente corta? 


Si la afirmación es cierta, ¿cuál es PX = 39.8)? 


Si la media muestral de la duración de las 100 baterías 
fuera de 39.8 horas, ¿usted creería en la afirmación del 
fabricante? Explique. 


$) 


11. 


12. 


Un 
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Se ha diseñado un nuevo proceso para fabricar lozas de ce- 
rámica. El objetivo es que no haya más de 5% que no sea 
satisfactorio debido a defectos en la superficie. Se revisa 
una muestra de 1 000 lozas. Sea X el número de lozas no sa- 
tisfactorio en la muestra. 


a) Si 5% de las lozas producidas no es satisfactorio, ¿a qué 
es igual P(X = 75)? 


b) Con base en la respuesta al inciso a), si 5% de las lozas 
no es satisfactorio, ¿75 no satisfactorias de las 1 000 se- 


ría un número inusualmente grande? Explique. 


c) Si 75 de las lozas de la muestra no fueran satisfactorias, 
¿sería factible que se haya alcanzado el objetivo? Expli- 
que. 


d) Si 5% de las lozas producidas no es satisfactorio, ¿a qué 


es igual P(X = 53)? 


e) Con base en la respuesta al inciso d), si 5% de las lozas 
no es satisfactorio, ¿53 lozas no satisfactorias de las 1 000 
sería un número inusualmente grande? 


f) Si53 de las lozas de la muestra no fueran satisfactorias, 
¿sería factible que se haya alcanzado el objetivo? Expli- 


que. 


Fechado radiactivo: El carbono-14 es un isótopo radiactivo 
del carbono que decae al emitir una partícula beta. En la at- 
mósfera terrestre, aproximadamente un átomo de carbono 
en 10? es carbono-14. Los organismos vivos intercambian 
carbono con la atmósfera, por lo que esta misma tasa es vá- 
lida para el tejido vivo. Después de que un organismo mue- 
re, éste deja de intercambiar carbono con su ambiente, y su 
tasa de carbono-14 disminuye exponencialmente con el 
tiempo. La tasa a la cual se emite partículas beta desde una 
masa dada de carbono es proporcional a la tasa de carbono- 
14, por lo que esta tasa también disminuye con el tiempo. 
Al medir la tasa de emisiones beta en una muestra de teji- 
do, se puede estimar el tiempo transcurrido desde la muerte 
del organismo. Específicamente, se sabe que £ años después 
de la muerte, el número de emisiones de partículas beta que 
ocurre en un intervalo a partir de 1 g de carbono sigue una 
distribución de Poisson con tasa A = 15.3e 920% ¿ventos 
por minuto. Por tanto, el número de años f transcurridos 
desde la muerte de un organismo se puede expresar en tér- 
minos de A: 


— In153—InA 
0.0001210 


arqueólogo descubre una pequeña pieza de carbón vegetal 


proveniente de un campamento antiguo. El carbón vegetal con- 
tiene 1 g de carbono. 
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a) El carbón vegetal tiene 11 000 años de antigiiedad, lo d) ¿Qué valor de 7. daría como resultado una estimación de 
que el arqueólogo no sabe. ¿Cuál es el valor verdadero antigúiedad de 10 000 años? 


2 90 ] Za ' . as 
de la tasa de emisión 2? e) ¿Qué valor de A daría como resultado una estimación de 


b) El arqueólogo planea contar el número X de emisiones antigúiedad de 12 000 años? 
en un intervalo de 25 minutos. Encuentre la media y la 


f) ¿Cuál es la probabilidad de que la estimación de anti- 
desviación estándar de X. 


giúedad tenga una corrección de + 1 000 años? 
c) Posteriormente, el arqueólogo planea estimar A con A = 
X/25. ¿Cuáles son la media y la desviación estándar de 4? 
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Cuando nacen gemelos-cuates (no idénticos), ambos pueden ser niños, niñas, o uno de cada 
uno. Suponga que cada infante tiene la misma probabilidad de ser un niño que una niña, y su- 
ponga que los sexos de los gemelos se determinan de manera independiente. ¿Cuál es la pro- 
babilidad de que ambos sean niños? Esta probabilidad se estima fácilmente, empleando la 
regla de la multiplicación de eventos independientes. La respuesta es (0.5)(0.5) = 0.25. Pero 
se supone que no se conocía la regla de la multiplicación. ¿Existe otra forma en la que se pue- 
da estimar esta probabilidad? Se puede realizar un experimento, o estudio, científico. Es posi- 
ble obtener los registros de nacimientos de gemelos en hospitales, y contar el número en los 
cuales ambos son niños. Si se obtuviese un número suficientemente grande de registros, la 
proporción en la cual ambos gemelos fueron niños quizá se aproximaría a 0.25, y se tendría 
una buena estimación de la probabilidad. 

A continuación se presenta un método más sencillo. Hay dos resultados igualmente pro- 
bables en el nacimiento de un gemelo: niño o niña. También hay dos resultados probables en 
el lanzamiento al aire de una moneda: “cara” o “cruz”. Por consecuencia, el número de “ca- 
ras” en el lanzamiento de dos monedas tiene la misma distribución que el número de niños en 
el nacimiento de un gemelo (ambas son binomiales con n = 2 experimentos y una probabili- 
dad de éxito p = 0.5). En lugar de tener el problema de dar seguimiento a los nacimientos 
reales, se puede lanzar al aire dos monedas un gran número de veces. La proporción de lan- 
zamientos en los que en ambas monedas sale “cara” se puede utilizar para estimar la propor- 
ción de nacimientos en los que ambos gemelos son niños. 

Estimar la probabilidad de que ambos gemelos sean niños al usar la estimación de la 
probabilidad de que en ambas monedas salga “cara” es un ejemplo de un experimento de si- 
mulación. Si se designa a los lados de la moneda como “0” y “1”, entonces el lanzamiento al 
aire de una moneda es un ejemplo de un generador de números aleatorios. Este último 
constituye un procedimiento para obtener un valor que tiene las mismas propiedades estadís- 
ticas como una cantidad muestral aleatoria extraída de cierta distribución específica. El nú- 
mero aleatorio generado por el lanzamiento al aire de una moneda viene de una distribución 
de Bernoulli con probabilidad de éxito p = 0.5. 

Hoy en día, las computadoras pueden generar miles de números aleatorios en una frac- 
ción de segundo, y virtualmente cada software estadístico contiene rutinas que generan mues- 
tras aleatorias a partir de una amplia variedad de distribuciones. Cuando un experimento es 
demasiado costoso, o físicamente difícil o imposible de realizar, y cuando la distribución de 
la probabilidad de los datos que serían generados por el experimento es aproximadamente co- 
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nocido, los números aleatorios generados por computadora a partir de la distribución apropia- 
da se puede utilizar en lugar de los verdaderos datos del experimento. A dichos números se 
les llama datos simulados o sintéticos. 


La simulación se refiere al proceso que genera números aleatorios y los trata como si 
hubiesen sido generados por un experimento científico real. A los datos generados de 
esta forma se les denomina simulados o sintéticos. 


Los métodos de simulación tienen muchos usos, incluyendo la estimación de probabi- 
lidades, estimación de medias y varianzas, comprobación de una hipótesis de normalidad, y 
estimación de sesgos. En el resto de esta sección se describen algunos de estos métodos. 


Uso de la simulación para estimar una probabilidad 


Con frecuencia se emplea la simulación para estimar probabilidades que son difíciles de 
calcular directamente. Aquí hay un ejemplo. Un ingeniero eléctrico conectará en paralelo 
dos resistores, etiquetados como 100 y 25 (2. Las resistencias verdaderas pueden diferir de 
los valores etiquetados. Se denota las resistencias reales de los resistores que son elegidos 
por X y Y. La resistencia total R del montaje está dada por R = XY/((X + Y). Suponga que 
X — N(100, 10?) y Y = NOS, 2.5) y que los resistores se seleccionan en forma indepen- 
diente. Suponga que la especificación para la resistencia del montaje es que 19 <R < 21. 
¿Cuál es la probabilidad de que el montaje cumpla con la especificación? Es decir, ¿a qué 
es igual P(19 <R < 21)? 

Se estimará esta probabilidad con una simulación. La idea es generar datos simulados 
cuya distribución se aproxime en lo posible a los datos que serían generados en un experimento 
real. En un experimento real, se tomaría una muestra de N resistores etiquetados con 100 02, 
cuyas resistencias verdaderas fuesen X;, ..., Xy, y después se tomaría una muestra de igual 
tamaño de resistores etiquetados con 25 (2, cuyas resistencias verdaderas fuesen Y, ..., Yy. 
Después se construiría N montajes con resistencias R, = X,Y,/(X, + Y¡),..., Ry = XyY (Xy 
+ Yy). Los valores R;, ... , Ry serían una muestra aleatoria de la población de todos los va- 
lores posibles de la resistencia total. La proporción de los valores de la muestra R;,..., Ry 
que estén entre 19 y 21 serían una estimación de P(19 <R < 21). 

En un experimento real, X;,..., Xy sería una muestra aleatoria de N(100, 10?) Y Vii 
Y y sería una muestra aleatoria de N(25, 23% Por consiguiente, en un experimento simulado, 
se generaría una muestra aleatoria Xf,..., X% de N(100, 10?) e, independientemente, una 
muestra aleatoria Y?,..., Y de NGS, 25 Luego se calcularán las resistencias totales si- 
muladas RE= XFX RH YE... RÍ= XRYANXR + Yí). Se emplea la notación X* Y* y 
R% para indicar que estos son valores simulados provenientes de un generador de números 
aleatorios en vez de datos verdaderos provenientes de un experimento real. Dado que la mues- 


tra XF,..., X% proviene de la misma distribución que la de una muestra real X,,..., Xy, y 
puesto que la muestra Y?,..., Yí proviene de la misma distribución que la de una muestra 
real Y,,..., Yy, se tiene que la muestra RF, ... , Ri proviene de la misma distribución que la 


de una muestra real de resistencias totales R;, ... , Ry. Por tanto, se puede tratar a RF,..., R% 
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como si fuera una muestra de resistencias verdaderas, aunque en realidad es una muestra de 
números aleatorios generados por una computadora. 

Los resultados de una simulación con un tamaño de muestra N = 100 se muestran en 
la tabla 4.2. Ésta es la muestra más pequeña que se utilizaría en la práctica. Por lo general, se 
utilizan con frecuencia muestras de 1 000, 10 000, o más. Las muestras de este tamaño no re- 
presentan ningún problema para las computadoras modernas y sus programas, y entre más 
grande sea la muestra, más precisos serán los resultados. 

Con el propósito de que los cálculos sean más transparentes, se ordenan los 100 valo- 
res de R*, que están en la tabla 4.2, en orden ascendente. 


15.37 15.48 15.58 16.66 16.94 17.18 1744 17.54 17.68 17.69 
17.91 17.95 18.01 18.06 18.21 18.31 18.49 18.58 18.60 18.65 
18.71 18.80 18.81 18.85 18.91 18.92 1893 18.99 18.99 19.01 
1902 1903 1906 19.11 1913 19.14 1920 1922 1924 19.30 
19.47 1952 19.56 19.58 1960 19.60 19.65 19.71 19.77 19.81 
1984 1990 1991 1995 1997 1998 20.03 20.14 20.16 20.17 
20.17 20.49 20.52 20.54 20.55 20.55 20.58 20.60 20.60 20.64 
20.69 20.75 20.76 20.78 20.81 20.90 20.96 21.06 21.13 21.24 
2141 2149 21.52 21.54 21.58 21.79 21.84 21.87 21.93 21.93 
22.02 2206 22.11 22.13 2236 2242 23.19 23.40 23.71 24.01 


Para estimar la P19 < R < 21) se determina que 48 de los 100 valores de la muestra se en- 
cuentran en este rango. Por consiguiente, se estima P(19 < R < 21) = 0.48. Se observa que 
con una muestra más grande, se puede emplear un software para hacer este conteo. 

Advierta que la importancia del supuesto de que la resistencia X del primer resistor y la 
Y del segundo fuesen independientes. Debido a este supuesto, es posible simular el experi- 
mento al generar muestras independientes X* y Y*, Si X y Y hubieran sido dependientes, se 
tendría que haber generado X* y Y* para que tuvieran la misma distribución conjunta que X 
y Y. (En la sección 2.6 se analizaron las distribuciones conjuntas.) Por fortuna, muchos pro- 
blemas reales de la vida implican muestras independientes. 

A continuación se presenta otro ejemplo de una probabilidad estimada con una simulación. 


Una ingeniera tiene que elegir entre dos tipos de ventiladores para instalarlo en una compu- 
tadora. Las duraciones, en meses, de los ventiladores del tipo A se distribuyen exponencial- 
mente con una media de 50 meses, y las de los tipo B se distribuyen exponencialmente con 
una media de 30 meses. Como consecuencia de que los ventiladores del tipo A son más ca- 
ros, la ingeniera decide que elegirá estos últimos si la probabilidad de que este tipo duplique 
su tiempo de duración que el de un ventilador B sea mayor a 0.5. Estime esta probabilidad. 


Solución 

Sea A la duración, en meses, de ventilador de tipo A elegido de forma aleatoria, y B represen- 
ta la duración, en meses, de otro elegido aleatoriamente. Se necesita calcular a P(A > 2B). Se 
realiza un experimento de simulación, utilizando muestras de tamaño 1 000. Se genera una 
muestra aleatoria A%, .... , AF opo a partir de una distribución exponencial con media 50(L = 
0.02) y una muestra aleatoria BF, .... , BF op a partir de una distribución exponencial con me- 
dia 301 = 0.033). Luego se cuenta el número de veces que AF > 2B*. La tabla 4.3 presenta 
los primeros diez valores y el último valor. La columna etiquetada como “A* > 2B*” contie- 
ne un “1” si A*> 2B% y un “0” si AF=< 2B*% 
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TABLA 4.3 Datos simulados para el ejemplo 4.70 


A* B* A*>2B" 
Lo 25,554 12.083 1 
2 66.711 11.384 1 
3 61.189 15.191 1 
4 9.153 119.150 0 
5 98.794 45.258 1 
6 14577 139.149 0 
7 65.126 9.877 1 
8 13.205 12.106 0 
9 20.535 21.613 0 
10 62.278 13.289 1 
1000 19.705 12.873 0 


Entre los primeros diez pares (4% B*) hay seis para los cuales A% > 2B*. Por conse- 
cuencia, si se basaran los resultados en los diez primeros valores, se estimaría que P(A > 2B) 
= 6/10 = 0.06. Obviamente, los diez pares simulados no se aproximan lo suficiente para cal- 
cular una estimación confiable. Entre los 1 000 pares simulados, hay 460 para los cuales 
AF > 2B*., Por tanto, se estima P(A > 2B) = 0.460. La ingeniera escoge el tipo B. Se obser- 
va que esta probabilidad se puede calcular sólo con una integral múltiple. La probabilidad 
exacta es 5/11 = 0.4545. La aproximación de la simulación es muy buena. 


Una muestra simulada correctamente a partir de una distribución de probabilidad dada 
es, de hecho, una muestra aleatoria simple de dicha distribución. Por consiguiente, se puede 
utilizar la media y la varianza muestrales simuladas para estimar la media y la varianza de la 
distribución, y se puede utilizar una gráfica de probabilidad para determinar si la distribución 
de probabilidad fue bien aproximada por una función de densidad estándar, como la curva 
normal. A continuación, se presentan algunos ejemplos. 


Estimación de medias y varianzas 


El ejemplo 4.71 muestra cómo se puede emplear los valores simulados para estimar la media 
y la desviación estándar de una población. 


Utilice los valores simulados R* en la tabla 4.2 para estimar la media q y la desviación es- 
tándar dy de la resistencia total R. 


Solución 
Se puede considerar a los valores R%, ... , Ri como si fueran una muestra aleatoria de las 
resistencias reales. Por consiguiente, se estima ug con la media muestral R* y dz con la des- 
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viación estándar muestral sz+. La media y la desviación estándar muestrales de R%, ...., Rio 
son R* = 19.856 y sp. = 1.6926, respectivamente. Estas son las estimaciones de ug y Tp. 


Comparación con la propagación de errores 


En el ejemplo 4.71 se utilizó la simulación para aproximar la media y la desviación estándar 
de una función de variables aleatorias R = XY/(X + Y). El método de propagación de errores, 
analizado en la sección 3.4, también se puede emplear con este propósito (véase el ejemplo 
3.20). Por supuesto, la simulación puede hacer muchas cosas que la propagación de errores 
no, como estimar probabilidades y determinar si una función dada de variables aleatorias se 
distribuye normalmente. Pero si lo que se necesita es estimar la desviación estándar de una 
función de variables aleatorias, es natural preguntar si la simulación o la propagación de erro- 
res es la mejor técnica. La respuesta es que cada método tiene ventajas y desventajas. 

Para que el análisis de esta cuestión sea concreto, sean X,, ..., X, variables aleatorias 
independientes y U = U(X,,..., X,) una función. Se desea calcular O, Lo primero que se 
necesita decir es que, en muchos casos, ambos métodos funcionan bien y dan resultados si- 
milares, por lo que sólo es una cuestión de conveniencia lo que se utiliza. La simulación tie- 
ne una ventaja, que no requiere que las desviaciones estándar de X,, ..., X, sean pequeñas, 
como lo hace la propagación de errores. Sin embargo, esta última tiene dos grandes ventajas. 
Primero, no es necesario conocer las distribuciones de X;, ..., X,, como se necesita en simu- 
lación. Segundo, puede indicar cuál de las X contribuye más a la incertidumbre de U, lo que 
no se puede hacer tan fácil con la simulación. 


Uso de la simulación para determinar si una población 
es aproximadamente normal 


Una de las cuestiones que surge con mayor frecuencia en el análisis de datos es si una pobla- 
ción se distribuye aproximadamente normal. Cuando se tiene a la disposición una muestra si- 
mulada de una población, es posible resolver esta cuestión. 


Construya un histograma de los valores simulados de R* presentados en la tabla 4.2. Cons- 
truya una gráfica de probabilidad normal para determinar si la densidad de la resistencia R es 
aproximadamente normal. 


Solución 

La siguiente figura muestra el histograma y la gráfica de probabilidad. El primero es aproxi- 
madamente simétrico y tiene una moda. Esto es consistente con la normalidad. La segunda 
indica una ligera desviación de la normalidad, especialmente en las colas. Es muy razonable 
decir que la distribución parece ser aproximadamente normal. En la práctica, una muestra de 
tamaño 1 000 o más generaría un histograma más preciso. Una muestra de 100 es adecuada 
para la gráfica de probabilidad, aunque no haya más problemas para generar una muestra más 
grande. 
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Gráfica de probabilidad normal para resistencias simuladas 
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El ejemplo 4.73 muestra cómo se puede usar la simulación para determinar si el tama- 
ño de una muestra es lo suficientemente grande para que sea válido el teorema del límite cen- 
tral, si se conoce la distribución de la cual se extrajo la muestra. 


El artículo “Termal Absorption from Pesticida Residues” (M. Reddy y A. Bunge, en The 
Practical Applicability of Toxicokinetic Models in the Risk Assesment of Chemicals, 2002:55- 
79) modela la cantidad de pesticida absorbida en el sistema como una variable aleatoria log- 
normal, cuya media es proporcional a la dosis. Suponga que para cierta dosis, la cantidad 
absorbida sigue una distribución lognormal con parámetros 4 = 1 y a = 0.5. Se llevará a ca- 
bo un experimento en el que se aplica esta dosis en cada uno de los cinco experimentos inde- 
pendientes, y la cantidad absorbida se determinará cada vez. ¿La cantidad absorbida en 
promedio sigue una distribución aproximadamente normal? 


Solución 

Sea X;,..., X5 una muestra aleatoria de una distribución lognormal con parámetros u = 1 y 
a = 0.5. La pregunta es si la media muestral X tiene una distribución aproximadamente nor- 
mal. Se responderá esta pregunta al generar 1 000 muestras aleatorias simuladas de tamaño 
cinco a partir de esta distribución lognormal, al calcular la media muestral de cada una de 
ellas, y después al construir una gráfica de probabilidad para las 1 000 medias muestrales. La 
tabla 4.4 presenta las primeras tres y las últimas tres de las muestras. Las primeras cinco co- 
lumnas en cada renglón de la tabla 4.4 constituyen una muestra aleatoria simple X'%, ..., X% 
proveniente de una distribución lognormal con parámetros y = 1 y ar = 0.5. La sexta colum- 
na es la media muestral X?. Por consecuencia, las 1 000 entradas en la sexta columna son una 
muestra aleatoria de medias muestrales. Al construir una gráfica de probabilidad normal de 
estos valores, se puede determinar si la media muestral está distribuida normalmente. 
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TABLA 4.4 Datos simulados para el ejemplo 4.73 


Xx: Xx Xx Xx: Xx Xx 
1 2.3220 1.5087 1.2144 2.5092 3.3408 2.1790 
3.3379 2.8557 1.0023 3.8088 2.3320 2.6673 
3 2.9338 3.0364 3.1488 2.0380 4.7030 3.1720 
998 4.7993 3.7609 1.5751 3.6382 2.0254 3.1598 
999 3.7929 2.9527 6.3663 1.8057 10.4450 5.0725 
1000 3.7680 4.5899 2.8609 2.1659 5.0658 3.6901 


A continuación se muestra un histograma y una gráfica de probabilidad normal de los 
1 000 valores de X*. El histograma muestra que la distribución está sesgada a la derecha. La 
gráfica de probabilidad confirma que la distribución está muy lejos de ser normal. 
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Uso de la simulación en los análisis de confiabilidad 


Un sistema está formado por componentes, cada uno tiene un tiempo de vida aleatorio. Por 
tanto, el tiempo de vida de un sistema también es aleatorio. Con frecuencia los ingenieros es- 
pecialistas en confiabilidad conocen las distribuciones de probabilidad de los tiempos de vi- 
da de los componentes y desean determinar la distribución de probabilidad del sistema. En la 
práctica puede ser muy difícil calcular directamente la distribución del tiempo de vida del sis- 
tema a partir de las distribuciones de los tiempos de vida de los componentes. No obstante, si 
los tiempos de vida de éstos son independientes, con frecuencia ello puede realizarse fácil- 
mente con simulación. En seguida se muestra un ejemplo sencillo. 
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Un sistema está formado por los componentes A y B conectados en paralelo, tal y como se 
muestra en la siguiente ilustración esquemática. El tiempo de vida en meses del componente 
A se distribuye Exp(1) y el tiempo de vida en meses del componente B se distribuye Exp(0.5). 
El sistema funcionará hasta que A y B fallen. Estime la media del tiempo de vida del sistema, 
la probabilidad de que el sistema funcione durante menos de un mes, y el 100. percentil de 
los tiempos de vida del sistema. 


A 

B 
Solución 
Se genera una muestra AF, ...., AFgop de los tiempos de vida simulados del componente A a 
partir de una distribución Exp(1). Después se genera una muestra B%, .... , Bf yop de los tiem- 


pos de vida simulados del componente B a partir de una distribución Exp(0.5). Observe que 
la media del tiempo de vida del componente A es de un mes y la media del tiempo de vida 
del componente B es 1/0.5 = 2 meses. El tiempo de vida del ¡-ésimo sistema simulado es 
LL = máx(A% B%). La tabla 4.5 muestra los resultados de las primeras diez muestras y de la 
última muestra. 


TABLA 4.5 Datos simulados para el 


ejemplo 4.74 
A* B* [+ 

1 0.0245 0.5747 0.5747 

2 0.3623 0.3998 0.3998 

3 0.8858 1.7028 1.7028 

4 0.1106 14.2252 14.2252 

5 0.1903 0.4665 0.4665 

6 2,2259 1.4138 2.2259 

dl 0.8881 0.9120 0.9120 

8 3.3471 3.2134 3.3471 

9 2.5475 1.3240 2.5475 

10 0.3614 0.8383 0.8383 

1 000 0.3619 1.8799 1.8799 


La media muestral de los primeros diez valores de LFes 2.724. Cinco de ellos son me- 
nores a 1. El 100. percentil de estos valores es (0.3998 + 0.4665)/2 = 0.43315. Por tanto, si 
las estimaciones se basaran en las primeras diez muestras, se estimaría que la media del tiem- 
po de vida del sistema es de 2.724 meses, la probabilidad de que el sistema falle en un mes es 
0.5, y el 100. percentil de las duraciones del sistema es 0.43315. Obviamente, diez muestras 
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no es ni siquiera una estimación suficientemente confiable. Con base en las 1 000 muestras, 
la estimación de la media del tiempo de vida fue de 2.29 meses, la estimación de la probabi- 
lidad de error dentro de un mes fue de 0.278 y el 100. percentil fue de 0.516 meses. 


Uso de la simulación para estimar sesgos 


La simulación se puede utilizar para estimar sesgos. El ejemplo 4.73 muestra cómo. 


SiX;,...,X, es una muestra aleatoria, entonces se usa la desviación estándar muestral s pa- 
ra estimar la desviación estándar poblacional d. Sin embargo, s es un estimador sesgado. Si 
Xi... , X¿es una muestra aleatoria de una distribución N(0, 1), utilice la simulación para es- 


timar el sesgo en s. Asimismo, estime la desviación estándar cd, de s. 


Solución 

Se generarán 1 000 muestras aleatorias X'f;, .. . , X?, de tamaño seis a partir de N(O, 1) y pa- 
ra cada una se calculará la desviación estándar muestral s*. La tabla 4.6 muestra los resulta- 
dos de las diez primeras y de la última muestra. 


TABLA 4.6 Datos simulados para el ejemplo 4.75 


Xx: Xx e Xx: Xx Xx: s 
—0.4326 0.7160  —0.6028 0.8304 0.1342  —03560 0.6160 
—1.6656 1.5986  —0.9934  —0.0938 0.2873  —18924 1.3206 

0.1253 2.0647 1.1889  —0.4598 0.3694 04906 1.1190 
—1.7580 0.1575  —08496 03291 1.5780  —1.1100 0.8733 


1.6867 0.3784 0.3809 0.4870 0.9454 0.4602 0.7111 
1.3626 0.7469 2.1102 2.6734 0.5311 1.1611 1.6629 
2.2424 0.5719 1.9659 0.1269 0.2642 0.3721 1.0955 
1.3765 0.4187 —0.5014 1.9869 0.0532 —0.7086 1.1228 
1.8045 0.5361 0.9121 1.4059 -1.2156 0.9619 1.2085 
0.3165 0.6007 0.5363 0.2300 0.2626 0.0523 0.4092 


OVO0JD2U un 


1000 0.3274 0.1787 02006  —11602 1.1020 03173 0.7328 


Los valores s%, .... , SF pp) Son una muestra aleatoria de la población de todos los posi- 
bles valores de s que se puede calcular a partir de una muestra normal de tamaño seis. Por 
consiguiente, la media muestral 5% es una estimación de la media poblacional 1,. Ahora, la 
desviación estándar real de la distribución a partir de la cual se generó los datos simulados es 
a = 1, por lo que el sesgo en s es uu, — 1. Se estima el sesgo con s* — 1. 

La media muestral de los primeros diez valores de s*es 1.0139. Por tanto, si los resul- 
tados se basaran en los primeros diez valores, se estimaría que el sesgo es 1.0139 — 1 = 
0.0139. Por supuesto, diez valores no son suficientes para construir una estimación confiable. 
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La media muestral de los 1 000 valores sFes s* = 0.9601. Se estima que el sesgo es 0.9601 
— 1 = —0.0399, 

La desviación estándar muestral de los 1 000 valores es 0.3156. Ésta es la estimación 
de d 


se 


La estimación Bootstrap 


En los ejemplos analizados hasta ahora en esta sección, se ha especificado la distribución a 
partir de la cual se generan los datos simulados. En algunos casos, esta distribución se puede 
determinar de los datos. Los métodos de simulación en los cuales la distribución que será ex- 
traída se determina a partir de los datos se llaman de estimación bootstrap. Para ilustrar lo 
anterior, se presenta una variación del ejemplo 4.75, donde la distribución de la muestra se 
determina a partir de los datos. 


Una muestra de tamaño seis es tomada de una distribución normal cuya media y varianza son 
desconocidas. Los valores de la muestra son 5.23, 1.93, 5.66, 3.28, 5.93 y 6.21. La media 
muestral es X = 4.7067 y la desviación estándar muestral es s = 1.7137. El valor de s se usa- 
rá para estimar la desconocida desviación estándar a de la población. Estime el sesgo en s. 


Solución 
Si se conociera la media poblacional y y la desviación estándar o de la distribución normal 
de la que proviene la muestra, se puede utilizar el método del ejemplo 4.75, para simular una 
distribución N(u, 0). En virtud de que no se conocen estos valores, se estimarán con los valo- 
res muestrales X = 4.7067 y s = 1.7137. Se procederá exactamente igual que en el ejemplo 
4.75, excepto que se extraerá una muestra de una distribución N(4.7067, 1.7137?). Puesto que 
la distribución se determinó a partir de los datos, éste es un método de estimación bootstrap. 
Se generarán 1 000 muestras aleatorias Xf;, . . . , X*, de tamaño seis de N(4.7067, 
1.7137) y para cada una se calculará la desviación estándar muestral s% La tabla 4.7 presen- 
ta los resultados de las primeras diez y de la última muestra. 


TABLA 4.7 Datos simulados para el ejemplo 4.76 


Xx: Xx Xx X: ba Xx: se 
1 2.3995 48961 3.6221 69787 44311 4.5367 1.5157 
2 26197 43102 32350 6.2619 44233 3.5903 1.2663 
3 30114 5.2492 7.6990 6.0439 6.5965 3.7505 1.7652 
4 39375 52217 19737 45434 3.0304 3.8632 1.1415 
5 5.8829 5.3084 4.6003 26439 2.3589 23055 1.6054 
6 78915 39731 5.1229 5.1749 3.5255 3.3330 1.6884 
7 42737. 55189 23314 5.1512 5.7752 40205 1.2705 
8 5.8602 5.3280 5.5860 6.8256 7.5063 3.939 1.2400 
9 5.7813 49364 2.5893 3.7633 0.9065 3.8372 1.7260 

10 


3.3690 1.8618 2.7627 3.2837 3.9863 6.0382 1.4110 


1000 20496 63385 62414 5.1580 3.7213 84576 2.2364 
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Los valores sí, .... , SF pp) SON una muestra aleatoria de la población de todos los posi- 
bles valores de s que se puede calcular a partir de una muestra normal de tamaño seis. Por tan- 
to, la media muestral 5* es una estimación de la media poblacional yu,. Ahora, la desviación 
estándar poblacional a partir de la cual se generaron los datos simulados es -* = 1.7137. El 
sesgo se estima con s* — 1.7137. 

La media muestral de los diez primeros valores de sFes 1.4630. Por consiguiente, si los 
resultados se basaran en los diez primeros valores, se estimaría que el sesgo es 1.4630 — 
1.7137 = —0.2507. Por supuesto, diez valores no son suficientes para construir una estima- 
ción confiable. La media muestral de los 1 000 valores de sFes 1.6188. Se estima que el ses- 
go es 1.6188 — 1.7137 = —0.0949. 


Algunas veces se pueden utilizar los resultados de la estimación bootstrap para ajustar 
estimaciones con el fin de que sean más exactas. El ejemplo 4.77 muestra cómo se puede rea- 
lizar esto último con la desviación estándar muestral. 


En el ejemplo 4.76 se tomó una muestra de tamaño seis de una población N(u, a”). La des- 
viación estándar muestral s = 1.7137 es una estimación de la desviación estándar poblacio- 
nal no conocida a. Utilice los resultados de la estimación bootstrap en el ejemplo 4.76 para 
reducir el sesgo en esta estimación. 


Solución 

Se estima que el sesgo en s es — 0.0949. Esto significa que, en promedio, la desviación están- 
dar muestral calculada a partir de esta población N(u, 907?) será menor que la desviación es- 
tándar real dá por aproximadamente —0.0949. Por consecuencia, se corrige el sesgo sumando 
0.0949 a la estimación. La estimación con sesgamiento corregido de la desviación estándar 
poblacional es 1.7137 + 0.0949 = 1.81. 


Estimación bootstrap paramétrica y no paramétrica 


En el ejemplo 4.76 se sabía que la muestra provenía de una distribución normal, pero no se 
conocían la media ni la varianza. Por tanto, se empleó los datos para estimar los parámetros 
p y O. A este procedimiento se le llama estimación bootstrap paramétrica, ya que los da- 
tos son utilizados para estimar parámetros. ¿Qué pasaría si no se hubiera tenido conocimien- 
to de que la distribución era normal? Entonces se hubiera utilizado la estimación bootstrap 
no paramétrica. En ésta se hace una simulación mediante el muestreo de los propios datos. 
Además, sirve para construir intervalos de confianza y realizar pruebas de hipótesis. Aquí se 
definirá la estimación bootstrap no paramétrica, y después se presentarán algunas aplicacio- 
nes en las secciones 5.8 y 6.15. 

Si se tuviera una muestra X,, .. ., X, de una distribución desconocida, se simularían 
muestras X7;, .. ., X*, de la siguiente manera. Imagine que se colocan los valores X,,..., X, 
en una caja, y que se saca un valor aleatoriamente. Después se reemplaza el valor y se saca 
otra vez. La segunda extracción es también una extracción muestral X,,..., X,. Se continúa 
hasta que se han realizado n extracciones. Ésta es la primera muestra simulada, denominada 
muestra de estimación bootstrap: Xf,, ... , X%,. Observe que puesto que se realiza el mues- 
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treo con reemplazo, la muestra de estimación bootstrap probablemente contendrá más de una 
vez a algunos de los elementos originales de la muestra y a otros que no aparezcan. Ahora se 
toma más muestras de estimación bootstrap: tantas como las que se tomarían en cualquier si- 
mulación, probablemente 1 000 o más. Después se procede como en cualquier otra simula- 


ción. 


Para mayor información acerca de la estimación bootstrap y otros procesos de simula- 
ción, Efron y Tibshirani (1993) son una excelente fuente de información. 


Ejercicios para la sección 4.11 


1. El vendedor A distribuye partes, donde cada una tiene una 


probabilidad de 0.03 de estar defectuosa. El vendedor B 
también distribuye partes y cada una tiene una probabilidad 
de 0.05 de estar defectuosa. Usted recibe un envío de 100 
partes por parte de cada vendedor. 


a) Sea X el número de partes defectuosas en el envío pro- 
venientes del vendedor A y Y el envío proveniente del 
vendedor B. ¿Cuáles son las distribuciones de X y Y? 


b) Genere muestras simuladas de tamaño 1 000 a partir de 
las distribuciones de X y Y. 


c) Utilice las muestras para estimar la probabilidad de que 
el número total de partes defectuosas sea menor a diez. 


d) Utilice las muestras para estimar la probabilidad de que 
el envío del vendedor A tiene más partes defectuosas 
que el envío del vendedor B. 


e) Construya una gráfica de probabilidad normal para el 
número total de partes defectuosas. ¿La cantidad sigue 
una distribución aproximadamente normal? 


. Dos diseños de cierto circuito de semiconductores están 


compitiendo entre sí. La duración del primero (en horas) se 

distribuye exponencialmente con A = 10”? y la duración 

del segundo tiene una distribución lognormal con 4 = 6 y 
2 

07 =5.4, 


a) Utilice una muestra simulada de tamaño 1 000 para es- 
timar la probabilidad de que un circuito con el primer 
diseño dure más que otro con el segundo diseño. 


b) Estime la probabilidad de que un circuito con el primer 
diseño dure el doble de tiempo que otro con el segundo 
diseño. 


. Se fabrican placas rectangulares cuyas longitudes se distribu- 
yen como N(2.0, 0.1%) y cuyos anchos se distribuyen como 
N(3.0, 0.22). Suponga que las longitudes y los anchos son 
independientes. El área de una placa está dada por A = XY. 


a) Utilice una muestra simulada de tamaño 1 000 para es- 
timar la media y varianza de A. 


b) Estime la probabilidad de que P(5.9 <A < 6.1). 


c) Construya una gráfica de probabilidad normal para las 
áreas. ¿El área de una placa sigue una distribución apro- 
ximadamente normal? 


. Un cable está compuesto por cuatro alambres. La fuerza de 


ruptura de cada alambre es una variable aleatoria distribui- 
da normalmente con media de 10 kN y desviación estándar 
de 1 kN. Utilizando el método de cable quebradizo, se esti- 
ma que la fuerza del cable es igual a la fuerza de alambre 
más frágil multiplicada por el número de alambres. 


a) Utilice muestras simuladas de tamaño 1 000 para esti- 
mar la fuerza media de este tipo de cable. 


b) Estime la mediana de la fuerza del cable. 
c) Estime la desviación estándar de la fuerza del cable. 


d) Para que sea aceptable en cierta aplicación, la probabili- 
dad de que el cable se rompa con una carga de 28 kN de- 
be ser menor a 0.01. ¿Parece ser que el cable es aceptable? 
Explique. 


. La duración de un láser (en horas) tiene una distribución 


lognormal con yu = 8 y a? = 2.4. Dos de esos láser funcio- 
nan de forma independiente. 


a) Utilice una muestra de tamaño 1 000 para estimar la 
probabilidad de que la suma de las dos duraciones sea 
mayor a 20 000 horas. 


b) Estime la probabilidad de que ambos láser duren más de 
3 000 horas. 


c) Estime la probabilidad de que ambos láser fallen antes 
de las 10 000 horas. 


6. Estimación del valor de 7. La siguiente figura sugiere cómo 


estimar el valor de 7 con una simulación. En la figura, un 
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círculo con un área igual a 77/4 está inscrito en un cuadrado 
cuya área es igual a 1. Se elige de forma aleatoria 100 pun- 
tos dentro del cuadrado. La probabilidad de que un punto 
esté dentro del círculo es igual a la fracción del área del cua- 
drado que abarca a éste, la cual es 7/4. Por tanto, se puede 
estimar el valor de 7/4 al contar el número de puntos dentro 
del círculo, que es 79, y al dividir entre el número total de 
puntos, que es 100, para obtener la estimación 7/4 = 0.79. 
De esto último se concluye que 7 = 4(0.79) = 3.16. Este 
ejercicio presenta un experimento de simulación que fue di- 
señado para estimar el valor de 7 al generar 1 000 puntos en 
el cuadrado. 


a) Genere 1 000 coordenadas x XF ..., XF op. Utilice la 
distribución uniforme con valor mínimo de O y valor 
máximo de 1. La distribución uniforme genera variables 
aleatorias que tienen la misma probabilidad de venir de 
cualquier parte del intervalo (0, 1). 


b) Genere 1 000 coordenadas y Yf, ...., Y Fono, utilizando 
nuevamente la distribución uniforme con valor míni- 
mo de 0 y valor máximo de 1. 


c) Cada punto (X*, Y*) se encuentra dentro del círculo si su 
distancia desde el centro (0.5, 0.5) es menor a 0.5. Para ca- 
da par (X'*, Y'*) determine si la distancia desde el centro 
es menor a 0.5. Esto último se puede realizar al calcular 
el valor (X'* — 0.5) + (1% - 0.57, que es el cuadrado 
de la distancia, y al determinar si es menor que 0.25. 


d 


= 


¿Cuántos de los puntos están dentro del círculo? ¿Cuál 
es su estimación de 7? (Nota: Con sólo 1 000 puntos, es 
probable que su estimación sea inferior por 0.05 o más. 
Una simulación con 10 000 y 100 000 puntos tiene ma- 
yores probabilidades de dar como resultado una estima- 
ción muy cercana al valor verdadero. 
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7. Aplicación a redes de computadoras móviles. Con frecuen- 


cia los expertos en computación modelan el movimiento de 
una computadora móvil como una trayectoria aleatoria den- 
tro de un rectángulo. Esto es, se elige aleatoriamente dos 
puntos dentro del rectángulo y la computadora se mueve en 
una línea recta desde el primer punto al segundo. En el es- 
tudio de redes de computadoras móviles, es importante co- 
nocer la media de la longitud de una trayectoria (véase el 
artículo “Stationary Distributions for Random Waypoint 
Models”, W. Navidi y T. Camp, en /EEE, Transactions on 
Mobile Computing, 2004:99-108). Es muy difícil calcular 
directamente esta media, pero es sencillo estimarla con una 
simulación. Si los puntos finales de una trayectoria están re- 
presentados por (X,, Y) y (X,, Y»), entonces la longitud de 
la trayectoria es y(X, — X,)? + (Y, — Y,)?. La media de la 
longitud se estima al generar puntos finales (Xf, Yf) y (X3, 

$) para muchas trayectorias, calcular la longitud de cada 
una, y estimar su media. Este ejercicio presenta un experi- 
mento de simulación que fue diseñado para estimar la media 
de la distancia entre dos puntos seleccionados aleatoria- 
mente dentro de un cuadrado de lado 1. 


a) Genere 1 000 conjuntos de puntos finales (Xf;, Y) y 
(X3, Y3,) . Utilice la distribución uniforme con valor mí- 
nimo de O y valor máximo de 1 para cada coordenada en 
cada punto. La distribución uniforme genera valores que 
tienen la misma probabilidad de provenir de cualquier 
parte del intervalo (0, 1). 


b) Calcule las longitudes de las 1 000 trayectorias L% = 
y (í, — XI? + (Y3 — Y py. 
c) Calcule la media muestral de la longitud de la trayecto- 


ria L*. La media verdadera, con seis dígitos significati- 
vos, es 0.521405. ¿Qué tan cercano está su resultado? 


d) Estime la probabilidad de que una trayectoria tenga más 
de una unidad de largo. 


. Con referencia al ejemplo 4.74 (p. 289), con el fin de incre- 


mentar el tiempo de vida del sistema, los ingenieros deben 
decidir entre reemplazar el componente A por uno cuyo 
tiempo de vida se distribuya Exp(1/2), o reemplazar el com- 
ponente B con uno cuyo tiempo de vida se distribuya 
Exp(1/3). 


a) Genere, mediante simulación, un gran número (al me- 
nos 1 000) de los tiempos de vida del sistema, bajo el su- 
puesto de que se reemplaza el componente A. 


b) Genere, con simulación, un gran número (al menos 1 000) 
de los tiempos de vida del sistema, bajo el supuesto de 
que se reemplaza el componente B. 


c) Si el objetivo es maximizar la media del tiempo de vida 
del sistema, ¿cuál es la mejor opción? Explique. 


10. 


d) Si el objetivo es minimizar la probabilidad de que el sis- 
tema falle en un mes, ¿cuál es la mejor opción? Expli- 
que. 


e) Si el objetivo es minimizar al 100. percentil de los tiem- 
pos de vida del sistema, ¿cuál es la mejor opción? Ex- 
plique. 


. Un sistema está compuesto por los componentes A y B co- 


nectados en serie, como lo muestra la siguiente ilustración 
esquemática. El tiempo de vida en meses del componente A 
sigue una distribución lognormal con 4 = 1 y a =0.5, y la 
duración en meses del componente B tiene una distribución 
lognormal con 4 = 2 y a = 1. El sistema sólo funcionaría 
si A y B lo hacen. 


A 4 B 


a) Genere, por simulación, un gran número (al menos 1 000) 
de los tiempos de vida del sistema. 


b) Estime la media del tiempo de vida del sistema. 


c) Estime la probabilidad de que el sistema falle en dos 
meses. 


d 


= 


Estime el 200. percentil de los tiempos de vida del sis- 
tema. 


e) Construya una gráfica de probabilidad normal de los 
tiempos de vida del sistema. ¿El tiempo de vida del sis- 
tema tiene una distribución aproximadamente normal? 


f) Construya un histograma de los tiempos de vida del sis- 
tema. ¿Está sesgado a la izquierda, sesgado a la derecha, 


o es aproximadamente simétrico? 


Un sistema está compuesto por dos subsistemas conectados 
en serie, como lo muestra la siguiente ilustración esquemáti- 
ca. Cada subsistema consiste en dos componentes conectados 
en paralelo. El subsistema AB falla cuando no funcionan A 
y B. El subsistema CD falla cuando lo hacen C y D. El sis- 
tema falla tan pronto como alguno de los dos subsistemas 
falla. Suponga que los tiempos de vida de los componentes, 
en meses, tiene las siguientes distribuciones: A: Exp(1), B: 
Exp(0.1), C: Exp(0.2), D: Exp(0.2). 


A (0 


B D 


a) Genere, mediante simulación, un gran número (al me- 
nos 1 000) de los tiempos de vida del sistema. 


b) Estime la media del tiempo de vida del sistema. 


c) Estime la mediana del tiempo de vida del sistema. 


11. 


12. 
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d) Estime la probabilidad de que el sistema funcione más 
de seis meses. 


e) Estime el 900. percentil de los tiempos de vida del sis- 
tema. 


f) Estime la probabilidad de que el susbsistema AB falle 
antes que lo haga el subsistema CD. 


(Continuación del ejercicio 12 de la página 280.) La edad 
de una antigua pieza de materia orgánica se puede estimar 
a partir de la tasa a la que emite partículas beta como resul- 
tado del decaimiento del carbono-14. Por ejemplo, si X es el 
número de partículas emitidas durante diez minutos por un 
fragmento óseo con 10 000 años de antigiiedad que contie- 
ne 1 g de carbono, entonces X tiene una distribución de 
Poisson con media A = 45.62. Un arqueólogo descubrió un 
pequeño fragmento óseo que contiene exactamente 1 g de 
carbono. Si f es la edad desconocida del hueso, en años, el ar- 
queólogo contará el número X de partículas emitidas en diez 
minutos y calculará una edad estimada f con la fórmula 


y In 15.3 — In(X/10) 
_ 0.0001210 


El arqueólogo no lo sabe, pero el hueso tiene exactamente 
10 000 años de antigijedad, por lo que X tiene una distribu- 
ción de Poisson con A = 45.62. 


a) Genere una muestra simulada de 1 000 valores de X y 
sus valores correspondientes de 7. 


b) Estime la media de ?. 
c) Estime la desviación estándar de 7. 
d 


= 


Estime la probabilidad de que 7 esté a 1 000 años con 
una edad real de 10 000 años. 


e) Estime la probabilidad de que Festé a más de 2 000 años 
con una edad real de 10 000 años. 


f) 


Construya una gráfica de probabilidad normal para 7. ¿7 
se distribuye aproximadamente en forma normal? 


Se toma una muestra aleatoria de una distribución normal 
con el propósito de estimar la media poblacional q. Puesto 
que es la mediana y la media, parece ser que tanto la me- 
diana muestral mm como la media muestral X son estimado- 
res razonables. Este ejercicio está diseñado para determinar 
cuál de estos estimadores tiene la menor incertidumbre. 


a) Genere un gran número de (al menos 1 000) muestras de 
tamaño cinco de una distribución N(O, 1). 


b) Calcule las medianas muestrales m', ... . , MÍ gop de las 


1 000 muestras. 


c) Calcule la media m* y la desviación estándar s,,* de 


+ ES 
Mi, - - +, MT o00- 
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d) Calcule las medias muestrales X*, ..., Xf y99 de las 1 000 


muestras. 


e 


= 


Calcule la media y la desviación estándar sz+* de Mt 
XT o00- 


f) El valor verdadero de y es 0. Estime el sesgo y la incer- 
tidumbre (c,,) en m. (Nota: De hecho, la mediana no tie- 
ne sesgos, por lo que la estimación del sesgo debe 
aproximarse a 0.) 


g) Estime el sesgo y la incertidumbre (dy) en X. ¿Su esti- 
mación del sesgo se aproxima a 0? Explique por qué. 
¿Su estimación de la incertidumbre se aproxima a 1/ 5? 
Explique por qué. 
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muestra son 2.74, 6.41, 4.96, 1.65, 6.38, 0.19, 0.52 y 8.38. 
Este ejercicio muestra cómo se emplea la estimación boots- 
trap para estimar el sesgo y la incertidumbre (05) en la es- 
timación A =1/X-. 


a) Calcule A =1/X para la muestra específica. 


b) Genere 1 000 muestras de estimación bootstrap de tama- 
ño ocho a partir de la distribución Exp(A). 


c) Calcule los valores de = 1/X* para cada una de las 1 000 
muestras bootstrap. 


d) Calcule la media muestral A* y la desviación estándar 
muestral s¿+ de AT, ..., Ajooo. 


e) Estime el sesgo y la incertidumbre (95) en 2. 


13. Se toma una muestra aleatoria de tamaño ocho de una dis- 
tribución Exp(A), donde no se conoce A. Los valores de la 
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1. Un avión tiene 100 asientos de pasajeros. Suponga que la b) De los diez descendientes de las plantas heterozygous 


probabilidad de que una persona con boleto llegue al vuelo 
es de 0.90. Si la aerolínea vende 105 boletos, ¿cuál es la 
probabilidad de que todas las personas tengan asiento? 


. El número de grietas grandes en un pavimento de determina- 
da longitud a lo largo de una cierta calle tiene una distribu- 
ción de Poisson con una media de una grieta por cada 100 m. 


a) ¿Cuál es la probabilidad de que haya exactamente ocho 
grietas en una longitud de 500 m de pavimento? 


b) ¿Cuál es la probabilidad de que no haya grietas en una 
longitud de 100 m de pavimento? 


c) Sea T'la distancia en metros entre dos grietas sucesivas, 
¿cuál es la función de densidad de probabilidad de 7? 


d) ¿Cuál es la probabilidad de que la distancia entre dos 
grietas sucesivas sea de más de 50 m? 


. Unas plantas de frijoles contienen dos genes del color de la 
semilla, donde cada uno puede ser Y (para semillas amari- 
llas) o G (para semillas verdes). A las plantas que contienen 
uno de cada tipo de gen se les llama heterozygous. De 
acuerdo con la teoría genética de Mendel, si se cruzan dos 
plantas heterozygous, cada uno de sus descendientes tendrá 
probabilidad de 0.75 de tener semillas amarillas y 0.25 de 
que sean verdes. 


a) De los diez descendientes de las plantas heterozygous, 
¿cuál es la probabilidad de que sólo tres tengan semillas 
verdes? 


. Se extrae una muestra aleatoria X,,... 


¿cuál es la probabilidad de que más de dos tengan semi- 
llas verdes? 


c) De los 100 descendientes de las plantas heterozygous, 
¿cuál es la probabilidad de que más de 30 tengan semi- 
llas verdes? 


d 


= 


De los 100 descendientes de las plantas heterozygous, 
¿cuál es la probabilidad que entre, e incluyendo a, 30 y 
35, tengan semillas verdes? 


e 


= 


De los 100 descendientes de las plantas heterozygous, 
¿cuál es la probabilidad de que menos de 80 tengan se- 
millas amarillas? 


, X, de una pobla- 
ción, y las cantidades ln X,,...., ln X, se incluyen en una 
gráfica de probabilidad normal. Los puntos siguen casi una 
línea recta. Verdadero o falso: 


a) X;,...,X, provienen de una población que es aproxi- 
madamente lognormal. 


b) X,,...,X, provienen de una población que es aproxi- 
madamente normal. 


c) InX;,...,InX, provienen de una población que es apro- 
ximadamente lognormal. 


d) InX;,..., ln X, provienen de una población que es apro- 
ximadamente normal. 


. La agencia de protección ambiental (EPA, por sus siglas en 


inglés) ha contratado a una compañía para que dé segui- 


miento a la calidad del agua de diversos lagos en su distri- 
to. Se emplean diez dispositivos. Suponga que cada uno tie- 
ne una probabilidad de 0.01 de fallar durante el transcurso 
del periodo de seguimiento. 


a) ¿Cuál es la probabilidad de que no falle ninguno de es- 
tos dispositivos? 


b) ¿Cuál es la probabilidad de que fallen dos o más dispo- 
sitivos? 

c) Si la EPA requiere que la probabilidad de que ninguno 
de estos dispositivos falle sea de al menos 0.95, ¿cuál es 
la probabilidad de falla individual más grande que pue- 
de permitirse? 


. En el artículo “Occurrence and Distribution of Ammonium 


in lowa Groundwater” (K. Schilling, en Water Environment 
Research, 2002:177-188), se midieron las concentraciones 
de amoniaco (en mg/l) de gran número de pozos en lowa. 
La media de la concentración fue de 0.71, la mediana fue de 
0.22 y la desviación estándar de 1.09. ¿Sería posible deter- 
minar si estas concentraciones tienen una distribución apro- 
ximadamente normal? Si es así, diga si éstas se distribuyen 
normalmente, y explique cómo lo sabe. Si no, describa la 
información adicional que necesitaría para determinar si se 
distribuyen normalmente. 


. El medicamento utilizado para tratar cierta condición se ad- 
ministra mediante una inyección. La dosis objetivo en una 
aplicación particular es u. Debido a las variaciones de la jerin- 
ga, en la escala de lectura, y en la mezcla de la suspensión 
del fluido, la dosis realmente administrada se distribuye con 
media u y varianza o”. 


a) ¿Cuál es la probabilidad de que la dosis administrada di- 
fiera de la media 1 por menos de q? 


b) Si X representa la dosis administrada, encuentre el valor 
de z de tal forma que P(X < u < za) = 0.90. 


c) Si la media de la dosis es de 10 mg, la varianza es de 2.6 
mg? y una sobredosis clínica se define como una dosis 
mayor a 15 mg, ¿cuál es la probabilidad de que un pa- 
ciente reciba una sobredosis? 


. Usted tiene una caja grande de resistores cuyas resistencias 
se distribuyen normalmente con media de 10 (2 y desvia- 
ción estándar de 1 (2. 


a) ¿Qué proporción de los resistores tienen resistencias en- 
tre 9.3 y 10.7 (2? 


b) Si usted extrae una muestra de 100 resistores, ¿cuál es la 
probabilidad de que 50 o más de ellos tengan resisten- 
cias entre 9.3 y 10.7 Q? 


10. 


11. 


12. 
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c) ¿Cuántos resistores debe extraer de la muestra de tal for- 
ma que la probabilidad sea de 0.99 de que 50 o más de 
los resistores de la muestra tengan resistencias entre 9.3 
y 10.7 Q? 


La holgura de las válvulas de entrada de unos motores nue- 
vos de cierto tipo se distribuye normalmente con media 200 
pum y desviación estándar 10 ¡um. 


a) ¿Cuál es la probabilidad de que la holgura sea mayor a 
215 um? 

b) ¿Cuál es la probabilidad de que la holgura esté entre 180 
y 205 yum? 

c) Un motor tiene seis válvulas de entrada. ¿Cuál es la pro- 
babilidad de que sólo dos de ellas tengan holguras ma- 
yores a 215 um? 


La rigidez de cierto tipo de viga de acero utilizada en la 
construcción de edificios tiene media de 30 kN/mm y des- 
viación estándar de 2 kN/mm. 


a) ¿Es posible calcular la probabilidad de que la rigidez de 
una viga seleccionada aleatoriamente sea mayor que 32 
kN/mm? Si es así, calcule la probabilidad. Si no, expli- 
que por qué. 

b) En una muestra de 100 vigas, ¿sería posible calcular la 
probabilidad de que la rigidez media muestral de vigas 
sea mayor a 30.2 kN/mm? Si es así, calcule la probabi- 
lidad. Si no, explique por qué. 


En cierto proceso, la probabilidad de producir un montaje 
de mayor tamaño es de 0.05. 


a) En una muestra de 300 montajes elegidos aleatoriamen- 
te, ¿cuál es la probabilidad de que menos de 20 tengan 
un tamaño mayor? 


b) En una muestra de diez montajes elegidos aleatoriamen- 
te, ¿cuál es la probabilidad de que uno o más de ellos 
tengan tamaño mayor? 


Cc) ¿A qué valor debe reducirse la probabilidad de un mon- 
taje de mayor tamaño para que sólo 1% de la población 
de 300 montajes tengan 20 o más con mayor tamaño? 


Un proceso de producir placas de vidrio deja en promedio 
tres burbujas pequeñas por cada 10 m? de vidrio. El núme- 
ro de burbujas en una lámina de vidrio sigue una distribu- 
ción de Poisson. 


a) ¿Cuál es la probabilidad de que una pieza de vidrio de 
3 x 5 m contendrá más de dos burbujas? 


b) ¿Cuál es la probabilidad de que una pieza de vidrio de 
4 x 6 m no tendrá ninguna burbuja? 
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13. 


14. 


15. 


16. 


17. 


c) ¿Cuál es la probabilidad de que 50 piezas de vidrio, ca- 
da una de 3 x 6 m contendrá más de 300 burbujas? 


Células de levadura se encuentran suspendidas en un medio 
líquido. Se toma de la suspensión una muestra de 2 mL. Se 
cuentan 56 células de levadura. 


a) Estime la concentración de células de levadura por mL 
de suspensión y determine la incertidumbre. 


b) ¿Qué volumen de la suspensión debe extraerse para re- 
ducir la incertidumbre a una célula por mL? 


Una placa está sujeta a su asiento utilizando diez pernos. Se 
revisa cada perno antes de la instalación y la probabilidad 
de pasar la inspección es de 0.9. Sólo se instalan los pernos 
que pasan la inspección. Sea X el número de pernos que son 
revisados para sujetar una placa. 


a) Determine P(X = 12). 
b) Determine uy. 


c) Determine (x. 


Los espesores de cuñas se distribuyen normalmente con una 
media de 1.5 mm y una desviación estándar de 0.2 mm. Se 
apilan tres cuñas, una sobre otra. 


a) Determine la probabilidad de que una pila tenga un es- 
pesor de más de 5 mm. 


b) Determine el 800. percentil del espesor de la pila. 


c) ¿Cuál es el número mínimo de cuñas que se debe apilar 
para que la probabilidad de que la pila tenga un espesor 
mayor a 5 mm sea de al menos 0.99? 


El tiempo de vida de un microprocesador se distribuye ex- 
ponencialmente con una media de 3 000 horas. 


a) ¿Qué proporción de microprocesadores fallará dentro de 
3 000 horas? 


b) ¿Qué proporción de microprocesadores funcionará du- 
rante más de 6 000 horas? 


c) Se instala un microprocesador al lado de otro que ha 
funcionado durante 1 000 horas. Suponga que los dos 
microprocesadores funcionan de manera independiente. 
¿Cuál es la probabilidad de que uno nuevo falle antes 
que el viejo? 


La duración de un cojinete (en años) sigue una distribución 
de Weibull con parámetros q = 1.5 y B= 0.8. 


a) ¿Cuál es la probabilidad de que un cojinete dure más de 
un año? 


18. 


19. 


20. 


21. 


22. 
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b) ¿Cuál es la probabilidad de que un cojinete dure menos 
de dos años? 


El tiempo para hacer un cambio de aceite en cierta tienda se 
distribuye normalmente con media de 29.5 minutos y des- 
viación estándar de tres minutos. ¿Cuál es la probabilidad 
de que un mecánico pueda realizar 16 cambios de aceite en 
una jornada de ocho horas al día? 


Un topógrafo estimará la altura de un acantilado al realizar 
n mediciones independientes y promediándolas. Cada me- 
dición no está sesgada y tiene una desviación estándar a = 
1 m. ¿Cuántas mediciones se debe hacer para que la proba- 
bilidad sea de 0.95 de que el promedio esté a + 0.25 del va- 
lor verdadero? 


Se revisa que las latas de aluminio recibidas por una com- 
pañía de bebidas satisfagan las especificaciones de resisten- 
cia. De un envío muy grande, se selecciona aleatoriamente 
y se prueba 100. El envío será rechazado si 12 latas o más no 
pasan la prueba. Suponga que 20% de las latas del envío 
no satisface la especificación. ¿Cuál es la probabilidad de 
que se rechace el envío? 


Un productor de cereales afirma que el peso bruto (inclu- 
yendo el empaque) de una caja de cereal etiquetada con pe- 
so de 12 onzas tiene media de 12.2 onzas y desviación 
estándar de 0.1 onzas. Usted junta 75 cajas y las pesa todas 
juntas. Sea S el peso total de las 75 cajas de cereal. 


a) Si la afirmación es cierta, ¿a qué es igual P(S = 914.8)? 

b) Con base en la respuesta al inciso (a), si la afirmación es 
cierta, ¿914.8 onzas es un peso total inusualmente pe- 
queño para una muestra de 75 cajas? 

c) Si el peso total de las cajas fuera de 914.8 onzas, ¿esta- 
ría usted convencido de que la afirmación es falsa? Ex- 
plique. 

d 


e) Con base en la respuesta al inciso (d), si la afirmación es 
cierta, ¿910.3 onzas es un peso total inusualmente pe- 
queño para una muestra de 75 cajas? 


= 


Si la afirmación es cierta, ¿a qué es igual P(S = 910.3)? 


$/ 


Si el peso total de las cajas fuera de 910.3 onzas, ¿esta- 
ría usted convencido de que la afirmación es falsa? Ex- 
plique. 


Una persona afirma que el número de visitas a su sitio web 
tiene una distribución de Poisson con media de 20 por ho- 
ra. Sea X el número de visitas en cinco horas. 


a) Si la afirmación es cierta, ¿a qué es igual P(X <= 95)? 


23. 


b) 


c) 


d 
e) 


<= 


Con base en la respuesta al inciso a), si la afirmación es 
cierta, ¿95 visitas durante un periodo de cinco horas es 
una cifra inusualmente pequeña? 


Si usted observó 95 visitas en un periodo de cinco ho- 
ras, ¿esto sería una evidencia de que la afirmación es fal- 
sa? Explique. 

Si la afirmación es cierta, ¿a qué es igual P(X <= 65)? 


Con base en la respuesta al inciso d), si la afirmación es 
cierta, ¿65 visitas durante un periodo de cinco horas es 
una cifra inusualmente pequeña? 


Si usted observó 65 visitas en un periodo de cinco ho- 
ras, ¿esto sería una evidencia de que la afirmación es fal- 
sa? Explique. 


X — Geom(p). Sea s = O un entero. 


a) 


b) 


c) 


Demuestre que P(X > s) = (1 — p). (Sugerencia: La 
probabilidad de que se necesite más de s experimentos 
para obtener el primer éxito es igual a la probabilidad de 
que todos los primeros s experimentos resulten en fraca- 
so.) 


Sea £ = 0 un entero. Demuestre que P(X > s + ex > 
s) = P(X > f). A esto último se le denomina propiedad 
de falta de memoria. [Sugerencia: P(X>s +1tyX> s) 
= PX>»s+0).] 

Existe dos monedas, de uno y cinco centavos, respecti- 
vamente. Se lanza al aire tres veces la primera moneda 
y todas las veces sale “cruz”. Enseguida, ambas mone- 
das se lanzan al aire dos veces, de tal forma que la mo- 
neda de un centavo se lance un total de cinco veces y la 
de cinco centavos dos. Utilice la propiedad de falta de 
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memoria para calcular la probabilidad condicional de 
que en los cinco lanzamientos de la moneda de un cen- 
tavo salga “cruz”, en virtud de que en los primeros tres 
lanzamientos salió “cruz”. Después, calcule la probabi- 
lidad de que en los dos lanzamientos de la moneda de 
cinco centavos salga “cruz”. ¿Las dos probabilidades 


son iguales? 


. Sea X — Bin(n, p). 


a) Demuestre que si x es un entero positivo entre, e inclu- 


yendo a, 1 y n, entonces 


PX=x)  (n-x+1 P 
P(X=x-1) Xx l=p 


b) Demuestre que si X — Bin(n, p), el valor más probable 


de X es el entero más grande, menor o igual a np + p. 
[Sugerencia: Utilice el inciso a) para demostrar que 
P(X =x) =P(X =x-— 1) si y sólo six < np + p.] 


. Sea X — Poisson(A). 


a) Demuestre que si x es un entero positivo, entonces 


P(X=x) l 


PX=x-bD' x 


b) Demuestre que si X — Poisson(A), el valor más probable 


de X es el entero más grande, menor o igual a A. [Suge- 
rencia: Utilice el inciso (a) para demostrar que P(X = x) 
= P(X = x-— 1) si y sólo si x = 4.] 


Capítulo 


Intervalos 
de confianza 


Introducción 
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En el capítulo 4 se analizaron estimaciones de diferentes parámetros; por ejemplo, p repre- 
senta la estimación de una probabilidad de éxito p, y X lo es de una media poblacional y. 
Ambas son llamadas estimaciones puntuales, porque son sólo números, o puntos. Un hecho 
importante de las estimaciones puntuales es que casi nunca son exactamente iguales a los va- 
lores reales que están estimando. 

Difieren casi siempre, a veces por poco y otras por mucho. Con la finalidad de que una 
estimación sea útil, se necesita describir qué tan alejada está del valor verdadero. Una mane- 
ra de lograr esto último es reportar una estimación de la desviación estándar, o de la incerti- 
dumbre. En este capítulo se mostrará que cuando la estimación tiene una distribución normal, 
se puede obtener más información acerca de su precisión cuando se calcula un intervalo de 
confianza. El siguiente ejemplo presenta la idea básica. 

Suponga que se hace gran número de mediciones independientes, todas mediante el mis- 
mo procedimiento, del diámetro de un pistón. La media muestral de las mediciones es 14.0 cm, 
y la incertidumbre en esta cantidad, que representa la desviación estándar de la media mues- 
tral, es 0.1 cm. Suponga que las mediciones no están sesgadas. El valor 14.0 proviene de una 
distribución normal, ya que es el promedio de un importante número de mediciones. Ahora el 
diámetro verdadero del pistón no será exactamente igual a la media muestral de 14.0 cm. Sin 
embargo, dado que ésta proviene de una distribución normal, se puede utilizar dicha desvia- 
ción estándar para determinar qué tan cerca está probablemente del diámetro verdadero. Por 
ejemplo, es muy improbable que la media muestral sea diferente del diámetro verdadero en 
más de tres desviaciones estándares. Por tanto, se tiene una enorme confianza de que el diáme- 
tro verdadero esté en el intervalo (13.7, 14.3). Por otro lado, es muy probable que la media 
muestral difiera del valor verdadero en más de una desviación estándar. Por tanto, se tiene que 
existe poca certeza de que el diámetro verdadero se encuentre en dicha cercanía (13.9, 14.1). 

Los intervalos (13.7, 14.3) y (13.9, 14.1) son intervalos de confianza para el diámetro 
verdadero del pistón. En este capítulo se verá cómo calcular una medida cuantitativa del ni- 
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vel de la confianza que se puede tener en estos intervalos, así como en otros que se pueda 
construir. Específicamente, los resultados de la sección 5.1 mostrarán que se puede tener una 
confianza de 99.7% de que el diámetro verdadero del pistón se encuentre en el intervalo 
(13.7, 14.3), pero sólo certeza de 68% de que ese valor verdadero lo esté en (13.9, 14.1). 


5.1 Intervalos de confianza para la media poblacional 
con muestras grandes 


Se comienza con un ejemplo. Un ingeniero que supervisa el control de calidad quiere calcu- 
lar la media del peso de cajas que se han llenado con cereal por una máquina específica du- 
rante cierto día. Toma una muestra aleatoria de 100 cajas que se han llenado con esa máquina 
en ese día. Calcula que la media muestral del peso de llenado es de X = 12.05 oz y la desvia- 
ción estándar s = 0.1 oz. 

Debido a que la media poblacional no será exactamente igual a la media muestral de 
12.05, es mejor construir un intervalo de confianza alrededor de 12.05 que quizá contenga a 
aquélla. Después se puede cuantificar el nivel de confianza de que la media poblacional esté 
realmente contenida por el intervalo. Con el propósito de ver cómo construir un intervalo de 
confianza en este ejemplo, sea yu la media poblacional desconocida y a” la varianza respecti- 
va. Sean X¡, ..., X1op los 100 pesos del llenado de las cajas muestreadas. El valor observado 
de la media muestral es X = 12.05. Ya que X es la media de una muestra grande, el teorema 
del límite central especifica que proviene de una distribución normal cuya media es y y cuya 
desviación estándar es oz = 0/ 100. 

La figura 5.1 presenta una curva normal, que representa la distribución de X. Aquí se 
indica que 95% intermedio de la curva se extiende una distancia 1.96 dz a cada lado de la 
media poblacional. El valor observado X = 12.05 constituye una sola muestra de esta distri- 
bución. No se tiene manera alguna de saber de qué parte de la curva fue extraído este valor 
especial de X. La figura 5.1 presenta una posibilidad: que la media muestral esté dentro del 


95% 


up — 1.9607 p X  p+1.960% 


| | 
X — 19607 X + 1.9607 


FIGURA 5.1 La media muestral X se extrae de una distribución normal con media yu y 
desviación estándar oz = a /./n. Para esta muestra en particular, X proviene de 95% in- 
termedio de la distribución, por lo que el intervalo de confianza 95% X>+1.960% contie- 
ne con seguridad la media poblacional u. 
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95% intermedio de la distribución. Noventa y cinco por ciento de todas las muestras que se 
podía haber tomado están dentro de esta categoría. La recta horizontal debajo de la curva en 
la figura 5.1 significa un intervalo alrededor de X que tiene exactamente la misma longitud de la 
parte central de 95% de la distribución; es decir, el intervalo X + 1.96 dy. Este intervalo de 
confianza es de 95% para la media poblacional yu. Es obvio que aquél contiene la media po- 
blacional y. 

Por otra parte, la figura 5.2 representa una muestra cuya media X está fuera de 95% in- 
termedio de la curva. Sólo 5% de todas las muestras se encuentra en dicha categoría. Para es- 
tas muestras más inusuales el intervalo de confianza de 95% X + 1.96 dz no contiene la 
media poblacional y. 


dh — y 


X  u-190% 17 p + 1.9607 


X — 19607 X + 1.9607 


FIGURA 5.2 La media muestral X viene de una distribución normal con media yu y des- 
viación estándar . 07 = 0/./n. Para esta muestra en particular, X proviene de 5% exterior 
de la distribución, por lo que el intervalo de confianza de 95% X + 1.96 dz no contiene la 
media poblacional y. 


Ahora se calculará un intervalo de confianza de 95% X + 1.96 dz para la media del pe- 
so de llenado. El valor de X es 12.05. La desviación estándar poblacional da y, por tanto, 7'z 
= 9/y/100 son desconocidos. Sin embargo, en este ejemplo, debido a que el tamaño muestral 
es grande, se podría aproximar a con la desviación estándar muestral s = 0.1. Por tanto, se 
calcula al intervalo de confianza de 95% para la media del peso de llenado yu como 12.05 + 
(1.96)(0.01), o (12.0304, 12.0696). Se puede decir que hay 95% de confianza, o un nivel de 
confianza de 95%; que la media del peso de llenado esté entre 12.0304 y 12.0696. 

¿Este intervalo de confianza de 95% realmente contiene la media poblacional ju? Esto 
último depende de si esta muestra en particular ocurrió en otra cuya media proviene de 95% 
intermedio de la distribución, o si era una muestra cuya media era inusualmente grande o pe- 
queña, en el 5% exterior de la distribución. No hay ninguna manera de saber con seguridad 
en qué categoría está contenida esa muestra particular. Pero imagine que el ingeniero repitió 
este procedimiento todos los días, extrayendo una muestra grande y calculando el intervalo 
de confianza de 95% X + 1.96 0z. A la larga, 95% de las muestras que extrae tendrán medias 
en el 95% intermedio de la distribución, por lo que en tal porcentaje de los intervalos de con- 
fianza que el ingeniero calcula estará contenida la media poblacional. En otras palabras, un 
intervalo de confianza de 95% se calcula mediante un procedimiento que con seguridad con- 
tiene a la media poblacional 95% de las veces. 
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Es posible utilizar este mismo razonamiento para calcular intervalos de confianza con 
diferentes niveles. Por ejemplo, se puede construir un intervalo de confianza de 68%, como 
se muestra a continuación. Se sabe que 68% intermedio de la curva normal corresponde al in- 
tervalo que se extiende una distancia 1.0 dz a cualquier lado de la media poblacional uu. Por 
consecuencia, un intervalo del mismo largo alrededor de X, específicamente X + dz, conten- 
drá la media poblacional en 68% de las muestras que se pudiera extraer. Por tanto, un inter- 
valo de confianza de 68% para la media del peso de llenado de las cajas es 12.05 + 
(1.0)(0.01), o (12.04, 12.06). 

Observe que el intervalo de confianza de 95% es más ancho que el de 68%. Esto es in- 
tuitivamente creíble. Con el fin de aumentar la confianza que se tiene de contener a la verda- 
dera media poblacional, se debe hacer más ancho al intervalo, que proporcionar un margen 
más ancho de error. Tomando dos casos extremos, se tiene una confianza de 100% de que la 
verdadera media poblacional está en un intervalo infinitamente ancho (->o, es), y una confian- 
za de 0% de que la verdadera media poblacional esté en el intervalo de ancho cero [12.05, 
12.05] que contenga a la media muestral y no a otro punto. 

A continuación se mostrará cómo encontrar un intervalo de confianza con cualquier ni- 
vel de confianza deseado. Sea Y un número entre 0 y 1, y 100(1 — 0)% el nivel de confian- 
za requerido. La figura 5.3 muestra la curva normal que representa la distribución de X. Se 
define a z¿, como el puntaje z que corta un área de 0/2 en la cola del lado derecho. Por ejem- 
plo, la tabla z (tabla A.2) indica que z 025 = 1.96, ya que 2.5% del área bajo la curva normal 
estandarizada está a la derecha de 1.96. De manera similar, la cantidad —z,,, corta un área de 
Q/2 en la cola del lado izquierdo. El área 1 — ( intermedia bajo la curva corresponde al in- 
tervalo u + zz. Como consecuencia del razonamiento que se muestra en las figuras 5.1 y 
5.2, el intervalo X + z¿¿0z contendrá a la media poblacional yu para una proporción 1 — Q% 
de todas las muestras que se pudieran extraer. Por tanto, un intervalo de confianza de nivel 
100(1 — 0)% para pes X + z,p0xz, 0X E 2,/20//n. 


po ZqpTz p M4 Zppp0% 


FIGURA 5.3 La media muestral X se extrae de una distribución normal con media y y 
desviación estándar oz = 0//n. La cantidad z,,, constituye el puntaje z que corta un área 
de (v/2 en la cola del lado derecho. Asimismo, —z¿y, representa el que corta un área de qv/2 
la cola del lado izquierdo. El intervalo X + z¿/0z contendrá la media poblacional ¡yu para 
una proporción 1 — Q: de todas las muestras que se pudiera extraer. Por tanto, X + z¿/0% 
significa un intervalo de confianza de nivel 100(1 — 03% para pu. 


Nótese que aun para muestras grandes, la distribución de X es sólo aproximadamente 
normal, y no exactamente normal. Por tanto, los niveles establecidos para los intervalos de 
confianza son aproximados. Cuando el tamaño muestral es lo suficientemente grande para 
que se utilice el teorema del límite central, la distinción entre los niveles aproximados y exac- 
tos se ignora en la práctica. 
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Sea X;, ..., X, una muestra aleatoria grande (n > 30) de una población con media u y 
desviación estándar a”, por lo que X es aproximadamente normal. Entonces un interva- 
lo de confianza 100(1 — 0% para u es 


X E Zo90x% (5.1) 


donde dz = a /.n. Cuando el valor de o es desconocido, se puede sustituir por la des- 
viación estándar muestral s. 


En particular, 


m X->+ —_ es intervalo de confianza de 68% para y. 


Jn 


E s 
o X+ iS es intervalo de confianza de 90% para pu. 


= s 
a Xz+ A es intervalo de confianza de 95% para pu. 


yn 
m X+ 2587 es intervalo de confianza de 99% para pu. 
n 


Ss 


/n 


m X+3 es intervalo de confianza de 99.7% para pu. 


La media y desviación estándar muestrales para todos los pesos de llenado de las 100 cajas 
son X = 12.05 y s = 0.1. Encuentre un intervalo de confianza de 85% para la media de los 
pesos de llenado de las cajas. 


Solución 

Con el propósito de determinar un intervalo de confianza de 85%, haga 1 — (Y = 0.85 para 
obtener Y = 0.15 y 0/2 = 0.075. Cuando se busca en la tabla a zp75, el puntaje z que corta 
7.5% del área en la cola del lado derecho. Se encuentra 975 = 1.44. Se aproxima dz = s/n 
= 0.01. Por lo que el intervalo de confianza de 85% es 12.05 + (1.44)(0.01). Esto último se 
puede escribir como 12.05 + 0.0144, o como (12.0356, 12.0644). 


El artículo “Study on the Life Distribution of Microdrills” (Z. Yang, Y. Chen y Y. Yang, en 
Journal of Engineering Manufacture, 2002:301-305) notifica que en una muestra de 50 mi- 
croperforadoras, éstas perforan una aleación de acero con bajo contenido de carbono, el tiem- 
po de vida promedio (expresado como el número de huecos perforados antes de que falle) era 
de 12.68 con desviación estándar de 6.83. Determine un intervalo de confianza de 95% para 
la media del tiempo de vida de las microperforadoras bajo estas condiciones. 


Ejemplo 
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Solución 
Primero se traslada el problema al lenguaje estadístico. Se tiene una muestra aleatoria simple 
Xi, . . . , X5p de los tiempos de vida. La media y desviación estándar muestrales son X = 12.68 


y s = 6.83. La media poblacional es desconocida y se denota por u. 

El intervalo de confianza tiene la forma X + z,y0x, como se especifica en la expresión 
(5.1). Dado que se quiere un intervalo de confianza de 95%, el nivel respectivo 1 — (es igual 
a 0.95. Por lo que Y = 0.05 y Zap = Zo5 = 1.96. Se aproxima ar con s = 6.83 y se obtiene 
dz = 6.83//50 = 0.9659. Por lo que el intervalo de confianza de 95% es 12.68 + 
(1.96)(0.9659). Lo anterior se puede escribir como 12.68 + 1.89, o como (10.79, 14.57). 


El siguiente resultado de computadora (de MINITAB) presenta el intervalo de confian- 
za de 95% calculado en el ejemplo 5.2. 


One-Sample Z 
The assumed standard deviation = 6.830000 


N Mean SE Mean 95% CI 
50 12.680000 0.965908 (10.786821, 14.5/3179) 


La mayor parte del resultado se explica solo. La cantidad etiquetada con “SE Mean” repre- 
senta la desviación estándar de la media muestral dz, aproximada por s/n. (“SE Mean” es- 
tablece el error estándar de la media, que es otro término para la desviación estándar de la 
media muestral.) 


En el ejemplo 5.2 determine un intervalo de confianza de 80 por ciento. 


Solución 

Para determinar un intervalo de confianza de 80%, haga 1 — «4 = 0.80 para obtener a = 0.20. 
Después busque en la tabla para z ¡y, el puntaje z que corta 10% del área en la cola del lado 
derecho. El valor es z¡p = 1.28. Por lo que el intervalo de confianza de 80% es 12.68 + 
(1.28)(0.9659). Éste se puede escribir como 12.68 + 1.24, o bien (11.44, 13.92). 


Se ha visto cómo calcular un intervalo de confianza con un nivel de confianza específi- 
co. Es posible calcular el nivel de un intervalo de confianza dado. El ejemplo 5.4 ilustra el 
método apropiado. 


Con base en los datos del tiempo de vida de las microperforadoras que se presentó en el ejem- 
plo 5.2, un ingeniero notifica un intervalo de confianza de (11.09, 14.27), pero olvidó especi- 
ficar el nivel. ¿Cuál es el nivel de confianza de este intervalo de confianza? 


Solución 
El intervalo de confianza tiene la forma X + z¿5/.(n. Se despeja a za, y después se consulta 
la tabla z para determinar el valor de r. Ahora X = 12.68, s = 6.83 y n = 50. El límite supe- 
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rior de confianza de 14.27 satisface la ecuación 14.27 = 12.68 + z2y2(6.83/,/50). Por tanto, 
Zan = 1.646. De la tabla z se determina que Q/2, el área a la derecha de 1.646, es aproxima- 
damente 0.05. El nivel es 100 — 09%, o 90 por ciento. 


Más acerca de niveles de confianza 


El nivel de confianza de un intervalo mide la confiabilidad del método utilizado para calcular 
el intervalo. Un intervalo de confianza de un nivel 100(1 — 0)% se calcula mediante un mé- 
todo que a la larga dará como resultado que la media poblacional se sitúe en una proporción 
1 — (todas las veces que se utilice. En la práctica, cuando se calcula un intervalo de confian- 
za, se debe decidir qué nivel de confianza se utilizará. Esta decisión implica un intercambio, 
porque los intervalos con niveles de confianza más grandes son menos precisos. Por ejemplo, 
un intervalo de confianza de 68% especifica la media poblacional dentro de + 1.00-z, mien- 
tras que un intervalo de confianza de 95% especifica a éste solamente dentro de + 1.960 z; 
por tanto, tiene sólo casi la mitad de la precisión del intervalo de confianza de 68%. La figu- 
ra 5.4 ilustra el intercambio entre confianza y precisión. Se extrajeron cien muestras de una 
población con media y. La figura 5.4b presenta cien intervalos de confianza de 95%, cada uno 
basado en una de estas muestras. Los intervalos de confianza son todos diferentes, porque ca- 
da muestra tiene una media X diferente. (También tienen valores diferentes de s con los que 
se aproxima a 9, pero esto último tiene un efecto mucho muy pequeño.) Cerca de 95% de es- 
tos intervalos contiene la media poblacional yu. La figura 5.4a presenta intervalos de confian- 
za de 68% basados en las mismas muestras. Estos intervalos son más precisos (más angostos), 
pero muchos de ellos no contienen la media poblacional. La figura 5.4c presenta intervalos de 
confianza de 99.7%. Estos intervalos son muy confiables. A la larga, solamente tres de los 1 000 
intervalos no contendrán la media poblacional. Sin embargo, son menos precisos (más an- 
chos); por tanto, no transmiten mucha información. 

El nivel de confianza más utilizado en la práctica es de 95%. Para muchas aplicaciones, 
este nivel proporciona un buen compromiso entre precisión y confiabilidad. Los niveles de 
confianza inferiores a 90% rara vez se utilizan. Para algunas aplicaciones de aseguramiento 
de calidad, donde la confiabilidad de producto es importante, se utilizan intervalos con nive- 
les de confianza muy altos, de 99.7 por ciento. 


Probabilidad contra confianza 


En el ejemplo del peso de llenado analizado al inicio de esta sección, se calculó un intervalo 
de confianza de 95% para la media poblacional y de (12.304, 12.696). Es arriesgado decir 
que la probabilidad es de 95% y que y está entre 12,304 y 12.696. Sin embargo, esto último 
no es correcto. El término probabilidad se refiere a los eventos aleatorios que pueden resul- 
tar diferentes cuando se repiten los experimentos. Los números 12.304 y 12.696 son fijos, no 
aleatorios. La media poblacional es también fija. La media del peso de llenado está ya sea en 
el intervalo de 12.304 a 12.696, o no lo está. No hay aleatoriedad implicada. Por tanto, se di- 
ce que se tiene confianza de 95% (no una probabilidad) que la media poblacional esté en tal 
intervalo. 

Por otra parte, se dice que se está analizando un método utilizado para calcular un in- 
tervalo de confianza de 95%. El método dará como resultado que la media poblacional esté 
95% de las veces, y no el otro 5%. En este caso, si la media poblacional está contenida o no 
es un evento aleatorio, porque puede variar entre experimentos. Por tanto, es correcto decir 
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FIGURA 5.4 a) Cien intervalos de confianza de 68% para una media poblacional, cada uno calculado con una muestra di- 
ferente. Aunque precisos, no contienen a la media poblacional 32% de las veces. Esta alta tasa de fallas hace que el inter- 
valo de confianza de 68% sea inaceptable para propósitos prácticos. b) Cien intervalos de confianza de 95% calculado de 
estas muestras. Éste presenta un buen compromiso entre precisión y confiabilidad para muchos propósitos. c) Cien interva- 
los de confianza de 99.7% calculado de estas muestras. Estos intervalos no contienen a la media poblacional solamente tres 
veces en 1 000. Son sumamente confiables, pero poco precisos. 


que un método para calcular un intervalo de confianza de 95% tiene esa probabilidad de con- 
tener a la media poblacional. 


Ejemplo 


Un intervalo de confianza de 90% para la media del diámetro (en cm) de varillas de acero fa- 
bricadas en cierta máquina de extrusión se calcula de (14.73, 14.91). Verdadero o falso: La 
probabilidad de que la media del diámetro de las varillas fabricadas por este proceso esté en- 
tre 14.73 y 14.91 es de 90 por ciento. 
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Solución 

Falso. Un intervalo específico de confianza está dado. La media está o no en el intervalo. Hay 
confianza de 90% de que la media poblacional esté entre 14.73 y 14.91. El término probabi- 
lidad no es adecuado. 


Una ingeniera planea calcular un intervalo de confianza de 90% para la media del diámetro 
de varillas de acero. Medirá los diámetros de una muestra grande de varillas, calculará X y s, 
y después el intervalo X + 1.645s//n. Verdadero o falso: La probabilidad de que la media del 
diámetro estará en este intervalo es de 90 por ciento. 


Solución 

Verdadero. Lo que se describe aquí es un método para calcular un intervalo de confianza, más 
que un valor numérico específico. Es correcto decir que un método para calcular un interva- 
lo de confianza de 90% tiene probabilidad de 90% de contener la media poblacional. 


Un equipo de geólogos planea medir los pesos de 250 rocas. Después de pesar cada roca mu- 
chas veces, calculará un intervalo de confianza de 95% para su peso. Suponga que no hay ses- 
go en el procedimiento de pesado. ¿Cuál es la probabilidad de que más de 240 de los 
intervalos de confianza contengan los pesos verdaderos de las rocas? 


Solución 

Aquí se han analizado 250 implementaciones planeadas de un método de cálculo de interva- 
los de confianza, no 250 intervalos específicos que ya han sido calculados. Por tanto, es ade- 
cuado calcular la probabilidad de que un número específico de estos intervalos contendrá los 
pesos verdaderos de sus rocas respectivas. Debido a que el procedimiento de pesado no tiene 
sesgos, el peso verdadero de una roca es igual a la media poblacional de sus mediciones. Se 
puede pensar en cada uno de los 250 intervalos de confianza como un ensayo de Bernoulli, 
con el éxito ocurriendo si el intervalo de confianza contiene la media poblacional. Como con- 
secuencia de que un intervalo de confianza de 95% se calcula con un proceso que contiene la 
media poblacional 95% de las veces, la probabilidad de éxito para cada ensayo es de 0.95. Sea 
Y el número de intervalos de confianza que contiene al peso verdadero. Entonces Y — 
Bin(250, 0.95) = N(237.5, 11.875). La desviación estándar de Yes o = Y 11.875 = 3.45. 
Con el uso de la curva normal, la probabilidad de que Y > 240 es 0.1922. Véase la figura 5.5. 
Observe que se ha utilizado la corrección de continuidad (véase la sección 4.10). 


Determinación del tamaño muestral necesario 

para un intervalo de confianza de ancho específico 

En el ejemplo 5.2, un intervalo de confianza de 95% fue dado por 12.68 + 1.89, o (10.79, 
14.57). Éste especifica que la media está dentro de +1.89. Ahora suponga que es demasiado 
ancho para ser útil. Suponga que es deseable obtener un intervalo de confianza de 95% que 
especifique que la media esté dentro de +0.50. Con este propósito se debe aumentar el tama- 
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ño muestral. Se ilustra cómo calcular el tamaño necesario para obtener un intervalo de con- 
fianza de cualquier ancho específico. 


0.1922 


| 
237.5 240.5 
z=/0.87 


FIGURA 5.5 Solución al ejemplo 5.7. 


Se sigue de la expresión (5.1) que el ancho de un intervalo de confianza para una me- 
dia poblacional basado en una muestra de tamaño n extraída de una población con desviación 
estándar o es + z¿po/.n. Si se especifica el nivel de confianza 100(1 — 0)% se puede bus- 
car el valor z,y,. Si la desviación estándar o: poblacional también se especifica, se calculará el 
valor de n necesario para producir un ancho específico. En el ejemplo 5.2, el nivel de confianza 
es de 95% y la desviación estándar se calcula de 6.83. Se busca Zo» = 2025 = 1.96. El tama- 
ño muestral necesario para obtener un intervalo de confianza de 95% con ancho +0.50 se en- 
cuentra al despejar n de la ecuación (1.96)(6.83)/,(n = 0.50. Se obtiene n = 716.83, que se 
redondea hacia arriba a n = 717. 


En el ejemplo del peso de llenado que se analizó en esta sección, la desviación estándar mues- 
tral de pesos de las 100 cajas era de s = 0.1 oz. ¿Cuántas cajas se probarán para obtener un 
intervalo de confianza de 99% de ancho > 0.012 oz? 


Solución 

El nivel es 99%, por lo que 1 — a = 0.99. Por tanto, a: = 0.01 y z¿y, = 2.58. Se calcula el 
valor de 7 con s = 0.1. El tamaño muestral necesario se encuentra con (2.58)(0.1)/.n = 
0.012. Se obtiene n = 463. 


Intervalos de confianza de un lado 


Los intervalos de confianza que se han analizado son de dos lados, ya que especifican tanto 
un límite inferior como otro superior. Ocasionalmente se tiene interés sólo en uno de estos lí- 
mites. En estos casos son adecuados los intervalos de confianza de un lado. Por ejemplo, su- 
ponga que un ingeniero que supervisa la confiabilidad quiere calcular la media de la fuerza 
de compresión de cierto tipo de bloque de concreto, con el propósito de determinar los tipos de 
aplicaciones para los que será adecuado. El ingeniero estará interesado solamente en un lími- 
te inferior para la fuerza, ya que las especificaciones para diferentes aplicaciones en general 
especificarán sólo una fuerza mínima. 

Suponga que una muestra grande tiene una media muestral X y desviación estándar dz. 
La figura 5.6 muestra cómo se puede adaptar la idea detrás del intervalo de confianza de dos 
lados para obtener un intervalo de confianza de un lado para la media poblacional yu. La cur- 
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va normal representa la distribución de X. Para 95% de todas las muestras que se pueden ex- 
traer, X < u + 1.6450% y, por tanto, el intervalo (X — 1.6450x, eo) contiene a un. Este últi- 
mo no contendrá a u sólo si la media muestral está en el 5% superior de su distribución. El 
intervalo (X — 1.6450x, eo) es un intervalo de confianza de un lado de 95% desigual para y, 
y la cantidad X — 1.6450< es un límite inferior de confianza del 95% para pu. 


p  X pM+1.6450% 


X — 1.64507 


FIGURA 5.6 La media muestral X es extraída de una distribución normal con media u y 
desviación estándar oz = a/n. Para esta muestra en particular, X proviene de 95% más 
bajo de la distribución, por lo que el intervalo de confianza de un lado de 95% (X — 
1.6450 x, co) seguramente contiene a la media poblacional y. 


Al construir una figura, como la 5.6, con 5% de la cola inferior sombreada, se puede 
ver que la cantidad X + 1.6450x es el límite superior de confianza de 95% superior para p. 
Ahora se generalizará el método para obtener intervalos de confianza de un lado a cualquier 
nivel deseado. Se define z¿, como el puntaje z que corta un área a en la cola de la derecha de 
la curva normal. Por ejemplo, zy5 = 1.6435. Mediante el razonamiento que se utilizó para ob- 
tener un intervalo de confianza de 95%, se pueden apreciar un nivel 100(1 — 0)% con límite 
inferior de confianza para yu dado por X — zz y un nivel 1 — o con límite superior de con- 
fianza para 1 dado por X + z¿0x. 


Sea X,, ..., X, una muestra aleatoria grande (n > 30) de una población con media u y 
desviación estándar o, se tiene que X es aproximadamente normal. Entonces el nivel 
de confianza 100(1 — 0% con límite inferior de confianza para ju es 


X — 20% (5.2) 
y un nivel 10011 — 0)% con límite de confianza superior para yu es 
X + 0% (5.3) 


donde dz = da/ /n. Cuando el valor de a es desconocido, se puede sustituir por la des- 
viación estándar muestral s. 
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En particular, 
s 
yn 
s 


Jn 


nm X+ 2337 significa un límite superior de confianza de 99% para pu. 


m  X-+1.28 representa un límite superior de confianza de 90% para yu. 


m  X-+1.645 constituye un límite superior de confianza de 95% para pu. 


n 


” 


Los correspondientes límites inferiores se encuentran al reemplazar el “+” con el “*=”. 


Con referencia al ejemplo 5.2, encuentre tanto un límite inferior de confianza de 95% como 
uno superior de 99% para la media del tiempo de vida de las microperforadoras. 


Solución 

La media muestral y la desviación estándar son X = 12.68 y s = 6.83, respectivamente. El 
tamaño muestral es n = 50. Se calcula dz = s/n = 0.9659. El límite inferior de confianza 
de 95% es X — 1.64507 = 11.09 y el de 99% es X + 2.3307 = 14.93. 


En el ejemplo 5.2, el intervalo de confianza de 95% de dos lados se calculó de (10.79, 
14.57). El límite inferior de confianza de 95% de 11.09, calculado en el ejemplo 5.9, es más 
grande que el límite inferior del intervalo de confianza de dos lados. La razón de esto último 
consiste en que el intervalo de dos lados puede fallar en dos maneras: el valor de yu podría ser 
demasiado alto o demasiado bajo. El intervalo de confianza de 95% de dos lados está diseña- 
do para fallar 2.5% de las veces en el lado superior y 2.5% en el inferior. En contraparte, el 
límite inferior de confianza de 95% nunca falla sobre el lado superior. Éste está, por tanto, di- 
señado para fallar 5% de las veces en el lado inferior, por lo que su límite inferior es mayor 
que para el intervalo de dos lados. 


Intervalos de confianza que deben 
estar basados en muestras aleatorias 


Los métodos descritos en esta sección requieren que los datos sean una muestra aleatoria de 
una población. Cuando se utiliza para otras muestras, los resultados podrían ser no significa- 
tivos. Los siguientes son dos ejemplos en los que se incumple la suposición de muestreo alea- 
torio. 


Un ingeniero químico desea calcular la media de la producción de un nuevo proceso. El pro- 
ceso está operando 100 veces durante un periodo de varios días. La figura 5.7 presenta las 100 
producciones graficadas en función del tiempo. ¿Sería adecuado calcular un intervalo de con- 
fianza para la media de la producción mediante el cálculo de X y s para las producciones y 
después utilizar la expresión (5.1)? 
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Producción 


Tiempo 


FIGURA 5.7 Producción de 100 operaciones de un proceso químico, graficadas en fun- 
ción del tiempo. Hay un patrón claro que indica que los datos no forman una muestra alea- 
toria. 


Solución 

No. La expresión (5.1) es válida sólo cuando los datos son una muestra aleatoria de una po- 
blación. La figura 5.7 muestra un patrón cíclico. Éste podría indicar que la producción de cada 
operación está influida por la producción de la operación previa, lo que violaría la suposición 
de independencia. Otra posibilidad es que la producción esté influida por condiciones am- 
bientales que fluctúan en forma regular. En cualesquiera de los dos casos, los datos no satis- 
facen las condiciones de una muestra aleatoria y no se debe utilizar la expresión (5.1). 


El ingeniero de quien se habló en el ejemplo 5.10 está investigando la producción de otro pro- 
ceso. La figura 5.8 presenta las producciones de 100 operaciones de éste, graficadas en fun- 
ción del tiempo. ¿Se debe utilizar la expresión (5.1) para calcular un intervalo de confianza 
para la media de la producción de este proceso? 


Producción 


Tiempo 


FIGURA 5.8 Producción de 100 operaciones de un proceso químico, graficadas en fun- 
ción del tiempo. Hay tendencia creciente con el tiempo, al menos en la parte inicial de la 
gráfica, lo que indica que los datos no forman una muestra aleatoria. 
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Solución 

No. Como en el ejemplo 5.10, hay un patrón en el tiempo. En este caso, las producciones tien- 
den a aumentar con el tiempo, al menos en la parte inicial de la gráfica. Esto último podría 
indicar un “efecto de aprendizaje”; conforme un operador se hace más experimentado respec- 
to de un proceso, los resultados mejoran. Un análisis más minucioso de los datos podría indi- 
car un momento donde el aumento parece parar y, en tal caso, la parte que tiene éxito se utiliza 
para formar un intervalo de confianza. 


Ejercicios para la sección 5.1 


1. Determine el valor de z¿y, para utilizar la expresión (5.1) d) ¿Aproximadamente cuántas ubicaciones se deben mues- 


con el fin de construir un intervalo de confianza con nivel 


a) 90% 
b) 83% 
c) 99.5% 
d) 75% 


. Determine los niveles de los intervalos de confianza que tie- 
nen los siguientes valores de z>: 


a) Za = 1.96 
b) zen =2.17 
0) Zan = 1.28 
d) Zen = 3.28 


. Conforme se eleva el nivel de confianza, la confiabilidad 
y la precisión . Opciones: aumenta, 
disminuye. 


. Los métodos de interpolación se utilizan para calcular altu- 
ras superiores al nivel del mar para ubicaciones donde las 
mediciones directas no están disponibles. En el artículo 
“Transformation of Ellipsoid Heights to Local Leveling 
Heights” (M. Yanalak y O. Baykal, en Journal of Surveying 
Engineering, 2001:90-103), se evalúa un método de interpo- 
lación para un polinomio de segundo orden que tiene como 
objetivo calcular las alturas de mediciones GPS (sistema de 
posicionamiento global). En una muestra de 74 ubicacio- 
nes, los errores del método tienen promedio de 3.8 cm, con 
desviación estándar de 4.8 cm. 


a) Determine un intervalo de confianza de 95% para la me- 
dia del error de este método. 


b) Determine un intervalo de confianza de 98% para la me- 
dia del error de dicho método. 


c) Un topógrafo afirma que el error de media está entre 3.2 
y 4.4 cm. ¿Con qué nivel de confianza se puede hacer 
esta afirmación? 


trear con el propósito de que un intervalo de confianza 
de 95% especificará la media dentro de +0.7 cm? 


e) ¿Aproximadamente cuántas ubicaciones se debe mues- 
trear con el propósito de que un intervalo de confianza 
de 98% especificará la media dentro de +0.7 cm? 


. En una muestra aleatoria de 100 baterías producidas por 


cierto método, el promedio del tiempo de vida fue de 150 
horas y la desviación estándar de 25 horas. 


a) Determine un intervalo de confianza de 95% para la me- 
dia del tiempo de vida de las baterías producidas por es- 
te método. 


b) Determine un intervalo de confianza de 99% para la me- 
dia del tiempo de vida de baterías producidas por dicho 
método. 


c) Un ingeniero afirma que la media del tiempo de vida es- 
tá entre 147 y 153 horas. ¿Con qué nivel de confianza se 
puede hacer esta afirmación? 


d 


= 


¿Aproximadamente cuántas baterías se deben muestrear 
con el propósito de que un intervalo de confianza de 
95% especificará la media dentro de +2 horas? 


e) ¿Aproximadamente cuántas baterías se deben muestrear 
con el fin de que un intervalo de confianza de 99% es- 
pecificará la media dentro de +2 horas? 


. En una muestra aleatoria de 53 especímenes de concreto, la 


media de la porosidad (en %) fue de 21.6 y la desviación es- 
tándar de 3.2. 


a) Determine un intervalo de confianza de 90% para la me- 
dia de la porosidad de los especímenes de este tipo de 
concreto. 


b) Determine un intervalo de confianza de 95% para la me- 
dia de la porosidad de los especímenes de este tipo de 
concreto. 


c) ¿Cuál es el nivel de confianza del intervalo (21.0, 22.2)? 
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d) ¿Cuántos especímenes se deben muestrear con el propó- 
sito de que un intervalo de confianza de 90% especifi- 
que la media dentro +0.3? 


e) ¿Cuántos especímenes se deben muestrear con el propó- 
sito de que un intervalo de confianza de 95% especifi- 
que la media dentro +0.3? 


. En una muestra de 80 clavos con costo de diez centavos, el 
peso promedio era 1.56 g y la desviación estándar era de 0.1 
gramos. 


a) Determine un intervalo de confianza de 95% para la me- 
dia del peso de este tipo de clavo. 


b) Determine un intervalo de confianza de 98% para la me- 
dia del peso de este tipo de clavo. 


Cc) ¿Cuál es el nivel de confianza del intervalo (1.54, 1.58)? 


d) ¿Cuántos clavos se deben muestrear con el propósito de 
que un intervalo de confianza de 95% especifique la me- 
dia dentro de +0.01 g? 


e) ¿Aproximadamente cuántos clavos se deben muestrear 
con el fin de que un intervalo de confianza de 98% es- 
pecifique la media dentro de 0.01 g? 


. Una etapa en la fabricación de cierta abrazadera de metal 
implica perforar cuatro huecos. En una muestra de 150 
abrazaderas, el promedio del tiempo necesario para comple- 
tar dicha etapa era de 72 segundos y la desviación estándar 
de 10 segundos. 


a) Determine un intervalo de confianza de 95% para la me- 
dia del tiempo necesario para completar tal etapa. 


b) Determine un intervalo de confianza de 99.5% para la 
media del tiempo necesario para completar esta etapa. 


Cc) ¿Cuál es el nivel de confianza del intervalo (71, 73)? 


d) ¿Cuántas abrazaderas se deben muestrear con el propó- 
sito de que un intervalo de confianza de 95% especifi- 
que la media dentro de +1.5 segundos? 


e) ¿Cuántas abrazaderas se deben muestrear con el objeti- 
vo de que un intervalo de confianza 99.5% especifique 
la media dentro de +1.5 segundos? 


. Un proveedor vende fibras sintéticas a una compañía de ma- 
nufactura. Se selecciona una muestra aleatoria simple de 81 
fibras de un envío. El promedio de la fuerza de ruptura de 
éstas es de 29 lb y la desviación estándar de 9 lb. 


a) Determine un intervalo de confianza de 95% para la me- 
dia de la fuerza de ruptura de todas las fibras del envío. 


b) Determine un intervalo de confianza de 99% para la me- 
dia de la fuerza de ruptura de todas las fibras del envío. 


10. 


11. 


12. 


13. 


14. 


15. 


Cc) ¿Cuál es el nivel de confianza del intervalo (27.5, 30.5)? 


d) ¿Cuántas fibras se deben muestrear con el propósito de 
que un intervalo de confianza de 95% especifique la me- 
dia dentro de +1 1b? 


e) ¿Cuántas fibras se deben muestrear con el propósito de 
que un intervalo de confianza de 99% especifique la me- 
dia dentro de +1 1b? 


Con referencia al ejercicio 5. 


a) Determine un límite inferior de confianza de 95% para 
la media del tiempo de vida de tal tipo de batería. 


b) Un ingeniero afirma que la media del tiempo de vida es 
mayor de 148 horas. ¿Con qué nivel de confianza se 
puede hacer esta afirmación? 


Con referencia al ejercicio 6. 


a) Determine un límite superior de confianza de 99% para 
la media de la porosidad. 


b) Se hizo una afirmación de que la media de la porosidad 
es menor que 22.7%. ¿Con qué nivel de confianza se pu- 
do haber hecho tal afirmación? 


Con referencia al ejercicio 7. 


a) Encuentre un límite superior de confianza de 90% para 
la media del peso. 


b) Alguien dice que la media del peso es menor que 1.585 
g. ¿Con qué nivel de confianza se pudo haber hecho di- 
cha afirmación? 


Con referencia al ejercicio 8. 


a) Determine un límite inferior de confianza de 98% para 
completar la etapa. 


b) Un especialista en eficiencia dice que la media del tiem- 
po es mayor de 70 segundos. ¿Con qué nivel de confian- 
za se pudo haber hecho esta afirmación? 


Con referencia al ejercicio 9. 


a) Determine un límite superior de confianza de 95% para 
la media de la fuerza de ruptura. 


b) El proveedor afirma que la media de la fuerza de ruptu- 
ra es mayor que 28 lb. ¿Con qué nivel de confianza se 
pudo haber hecho tal afirmación? 


Una investigadora calcula un intervalo de confianza de 95% 
para una media poblacional con base en una muestra de ta- 
maño 70. ¿Si desea calcular un intervalo de confianza de 
95% que sea la mitad de ancho, ¿qué tamaño muestral ne- 
cesita? 


16. 


17. 


18. 


19. 


5.2 


Un intervalo de confianza de 95% para una media poblacio- 
nal se calcula de una muestra de tamaño 50. Se calculará 
otro intervalo de confianza de 95% para una muestra de ta- 
maño 200, extraída de la misma población. Elija la mejor 
respuesta que complete el espacio en blanco: El intervalo de 
una muestra de tamaño 50 será aproximadamente 

del intervalo de la muestra de tamaño 200. 


i) Un octavo de ancho. 
1i) Un cuarto de ancho. 
111) La mitad de ancho. 

iv) El mismo ancho. 

v) Dos veces de ancho. 
vi) Cuatro veces de ancho. 


vii)Ocho veces de ancho. 


Con base en pruebas de comportamiento de una gran mues- 
tra de uniones soldadas, se calculó un intervalo de confian- 
za de 90% para la media de la dureza Rockwell B de cierto 
tipo de soldadura de (83.2, 84.1). Determine un intervalo de 
confianza de 95% para la media de la dureza Rockwell B de 
este tipo de soldadura. 


Se hicieron 64 mediciones independientes de la velocidad 
de la luz. Con un promedio de 299 795 km/s y tenían una 
desviación estándar de 8 km/s. Verdadero o falso: 


a) Un intervalo de confianza de 95% para la velocidad de 
la luz es 299 795 + 1.96 km/s. 


b) La probabilidad es de 95% de que la velocidad de la luz 
esté en el intervalo 299 795 + 1.96. 


c) Si se hace la medición 65, la probabilidad es de 95% de 
que estuviera en el intervalo 299 795 + 1.96. 


Una caja grande contiene 10 000 cojinetes de bola. Se elige 
una muestra aleatoria de 120. La media muestral del diáme- 


5.2 


20. 


21. 


22. 


Intervalos de confianza para proporciones 315 


tro es 10 mm y la desviación estándar es 0.24 mm. Verda- 
dero o falso: 


a) Un intervalo de confianza de 95% para la media del diá- 
metro de los 120 cojinetes en la muestra es O + 
(1.96)(0.24)/,/120. 

b) Un intervalo de confianza de 95% para la media del diá- 
metro de los 10 000 cojinetes en la caja es 10 + 
(1.96)(0.24)/,/120. 

c) Un intervalo de confianza de 95% para la media del diá- 


metro de los 10 000 cojinetes en la caja diez es 10 + 
(1.96)(0.24)//10 000. 


Todos los días un ingeniero de control de calidad seleccio- 
na una muestra aleatoria de 100 pernos de la producción del 
día, mide sus longitudes y calcula un intervalo de confianza 
de 95% para la media de la longitud de todos los pernos fa- 
bricados ese día. ¿Cuál es la probabilidad de que más de 15 
de los intervalos de confianza construidos en los siguientes 
250 días no contendrán la media verdadera? 


Con base en una muestra de registros de reparación, un in- 
geniero calcula el intervalo de confianza de 95% para la 
media del costo de reparar un componente de fibra óptica de 
($140, $160). Un supervisor resume este resultado en un in- 
forme, diciendo: “Se tiene una confianza de 95% de que la 
media del costo de las reparaciones es menor que $160”. 
¿El supervisor está subestimando la confianza, sobreesti- 
mándola u obteniéndola de manera correcta? Explique. 


Un meteorólogo mide la temperatura en el centro de la ciu- 
dad de Denver a mediodía todos los días durante un año. 
Las 365 lecturas tienen un promedio de 57%F y una desvia- 
ción estándar de 20%F . El meteorólogo calcula un intervalo 
de confianza de 95% para la media de la temperatura a me- 
diodía de 57? + (1.96) 20 1365. ¿Es esto correcto? ¿Por 
qué si o por qué no? 


Intervalos de confianza para proporciones 


Los métodos de la sección 5.1, en particular la expresión (5.1), se pueden utilizar con el fin 
de determinar los intervalos de confianza para la media de cualquier población de la cual se 
ha extraído una muestra grande. Cuando la población tiene una distribución de Bernoulli, es- 
ta expresión toma una forma especial. Se muestra esto último con un ejemplo. 

En el ejemplo 5.2 (de la sección 5.1), se construyó un intervalo de confianza para la me- 
dia del tiempo de vida de una microperforadora cuando perforaba una aleación de acero con 
bajo contenido de carbono. Ahora suponga que se ha establecido una especificación de que 
una perforadora debe tener un tiempo de vida mínimo de diez huecos perforados antes de fa- 
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llar. Se prueba una muestra de 144 microperforadoras, y 120, 83.3%, satisfacen la especifica- 
ción. Sea p la proporción de microperforadoras en la población que satisface la especificación. 
Se desea encontrar un intervalo de confianza de 95% para p. 

Se empieza construyendo un estimador de p. Sea X el número de perforadoras en la 
muestra que satisface la especificación. Entonces X — Bin(n, p), donde n = 144 es el tama- 
ño muestral. El estimador de p es p = X/n. En este ejemplo, X = 120, por lo que p = 120/144 
= 0.833. La incertidumbre, o desviación estándar de p, es 04 = Vp(l — p)/n. Puesto que el 
tamaño muestral es grande, se tiene por el teorema del límite central (ecuación 4.52 de la sec- 


ción 4.10) que 
pa pap) 
poeNÑ (». ma) 


El razonamiento que se ilustra en las figuras 5.1 y 5.2 (de la sección 5.1) muestra que en 95% 
de todas las muestras posibles, la proporción poblacional p satisface la siguiente desigualdad: 


í= í= 
p190 2 <p< p+196/ PP (5.4) 


A primera vista, la expresión (5.4) parece un intervalo de confianza de 95% para p. Sin 
embargo, los límites p + 1.96/p(l — p)/n contienen una p desconocida, y por eso no se 
puede calcular. El punto de vista tradicional es sustituir p con Pp, obtener el intervalo de con- 
fianza p + 1.96y/p(1 — p)/n. Investigaciones recientes muestran que ese intervalo se pue- 
de mejorar modificando ligeramente tanto a n como a p. En específico, se debe sumar 4 al 
número de los ensayos y 2 al de los éxitos. Así que en lugar de n se utilizan = n + 4, y en 
lugar de p se usa p = (X + 2)/5.. Un intervalo de confianza de 95% para p es así dado por 
Pp + 1.96 /p(l — p)/n. En este ejemplo, n = 148 y p = 122/148 = 0.8243, por eso el in- 
tervalo de confianza de 95% es 0.8243 + 0.0613, o (0.763, 0.886). 

Se justifica lo anterior con base en el teorema del límite central, que requiere que n sea 
grande. Sin embargo, este método de cálculo de intervalos de confianza es adecuado para 
cualquier tamaño n de muestra. Cuando se utiliza con muestras pequeñas, podría ocurrir que 
el límite inferior sea menor a O o que el superior a 1. Dado que O < p < 1, un límite inferior 
menor que 0 se debe sustituir con 0, y un límite superior mayor que 1 se debe sustituir con 1. 


Sea X el número de éxitos en n ensayos de Bernoulli independientes con probabilidad 
de éxito p, por lo que X — Bin(n, p). 


 X+2 
Se definen =n +4 y p = Bs . Entonces un nivel 100(1 — 0% de un interva- 
n 


lo de confianza para p es 
515 
o (5.5) 
n 


Si el límite inferior es menor que 0, se reemplaza éste con 0. Si el superior es mayor 
que 1, se remplaza éste con 1. 
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El intervalo de confianza dado por la expresión (5.5) algunas veces es llamado interva- 
lo de Agresti-Coull, en honor a Alan Agresti y Brent Coull, quienes lo desarrollaron. Para ma- 
yor información consulte “Approximate Is Better Than “Exact” for Interval Estimation of 
Binomial Proportions” (A. Agresti y B. Coull, en The American Statistician, 1998:119-126). 


Los métodos de interpolación se usan para calcular las alturas sobre el nivel del mar para ubi- 
caciones donde las mediciones directas no están disponibles. En el artículo “Transformation 
of Ellipsoid Heights to Local Leveling Heights” (M. Yanalak y O. Baykal, en Journal of Sur- 
veying Engineering, 2001:90-103), se evalúa un método de promedio ponderado de interpo- 
lación para calcular las alturas de mediciones GPS. El método se estableció para interpretar 
errores “grandes” (errores cuya magnitud están por encima de umbral comúnmente aceptado) 
en 26 de 74 ubicaciones de prueba. Determine un intervalo de confianza de 90% para la pro- 
porción de ubicaciones en las que este método tendrá errores grandes. 


Solución 

El número de éxitos es X = 26 y el de ensayos n = 74. Por tanto, se calcula n = 74 + 4 = 
78, p = (6 + 23/78 = 0.3590, y y p(1 — p)/n = y/(0.3590)(0.6410)/78 = 0.0543. Para 
un intervalo de confianza de 90%, el valor de qv/2 es 0.05, por lo que z¿ = 1.645. El inter- 
valo de confianza de 90% es, por tanto, 0.3590 + (1.645)(0.0543), o (0.270, 0.448). 


Los intervalos de confianza de un lado se pueden calcular también para proporciones. 
Son análogos a los intervalos de un lado para una media poblacional (ecuaciones 5.2 y 5.3 de 
la sección 5.1). Los niveles para los intervalos de confianza de un lado son sólo aproximacio- 
nes burdas para muestras pequeñas. 


Sea X el número de éxitos en n ensayos de Bernoulli independientes con probabilidad 
p de éxito, por lo que X — Bin(n, p). 


e ES xXx +2 z , 
Se definen =n + 4y p = ———. Entonces un nivel 100(1 — 0)% de un límite 
n 
inferior de confianza para p es 


Hoz (5.6) 


n 


y nivel 100(1 — 0:)% de un límite superior de confianza para p es 


se 
AN A (5.7) 


Si el límite inferior es menor que 0, se reemplaza con 0. Si el superior es mayor que 1, 
se reemplaza con 1. 
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El ejemplo 5.13 muestra cómo calcular el tamaño muestral necesario para un intervalo 
de confianza que tenga un ancho específico cuando se conoce un valor preliminar de p. 


En el ejemplo 5.12, ¿qué tamaño muestral se necesita para obtener un intervalo de confianza 
de 95% con ancho +0.08? 


Solución 

Un intervalo de confianza de 95% tiene un ancho +1.96/p(1 — p)/n, donde n = n + 4. Por 
tanto, se determina el tamaño muestral n con la ecuación 1.96 v P( — p)/(n +4) =0.08. De 
los datos del ejemplo 5.12, p = 0.3590. Al sustituir este valor para p y despejando a n, se ob- 
tiene n = 135. 


A veces se puede desear calcular un tamaño muestral sin tener disponible un estimador 
p confiable. La cantidad p (1 — p), que determina el ancho del intervalo de confianza, se ma- 
ximiza por p = 0.5. Debido a que el ancho es el más grande cuando p (1 — p) es mayor, se 
puede calcular un estimador de tamaño muestral conservador con p = 0.5 y prosiguiendo co- 
mo en el ejemplo 5.13. 


En el ejemplo 5.12, ¿qué tamaño muestral es necesario para garantizar que el ancho del inter- 
valo de confianza de 95% no será mayor que + 0.08, si no se ha tomado alguna muestra pre- 
liminar? 

Solución 

Un intervalo de confianza de 95% tiene un ancho +1.96/p(1 — p)/(n + 4). El intervalo de 
confianza más ancho posible, para una muestra de tamaño n, es +1.96/(0.5)(1 — 0.5)/(n + 4), 
o +0.98//n + 4. Al despejar a n de la ecuación 0.98/Yn +4 = 0.08, se obtiene n = 147. 
Observe que este cálculo es un poco más grande que el que se obtuvo en el ejemplo 5.13. 


El método tradicional 


El método que se ha descrito se ha desarrollado recientemente (aunque se creó para simplifi- 
car un método mucho más antiguo). Muchas personas todavía usan un método más tradicio- 
nal. Éste utiliza el tamaño muestral n real en lugar de % y la proporción real P en lugar de 7. 
Aunque este método todavía es usado, falla para lograr la probabilidad de cobertura estable- 
cida, incluso para algunos valores bastante grandes de n. Esto significa que intervalos de con- 
fianza 100(1 — 0)% que se calculan con los métodos tradicionales contendrán la proporción 
verdadera menos del 100(1 — (4)% de las veces. El método tradicional no puede ser usado pa- 
ra todas las muestras pequeñas; una regla práctica respecto del tamaño muestral es que tanto 
np (el número de éxitos) como n(1 — p) (el número de fracasos) deben ser mayores que 10. 

Debido a que el método tradicional todavía es muy usado, lo resumimos en el siguien- 
te cuadro. Para tamaños muestrales muy grandes, los resultados del método tradicional son 
cas1 idénticos a los obtenidos con el método moderno. Para tamaños muestrales pequeños o 
medianamente grandes, el punto de vista moderno es mejor. 
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El método tradicional para calcular intervalos de confianza para una pro- 
porción (ampliamente usado pero no recomendado) 


Sea Pp la proporción de éxitos en un gran número n de ensayos de Bernoulli indepen- 
dientes con probabilidad de éxito p. Entonces el intervalo de confianza tradicional de 
nivel 100 — 0% para p es 


PIEZA) (5.8) 
n 


El método no se puede utilizar a menos que la muestra contenga un mínimo de diez 
éxitos y diez fracasos. 


Ejercicios para la sección 5.2 


1. Las concentraciones de contaminantes atmosféricos, como 


b) Determine un intervalo de confianza de 98% para la pro- 


monóxido de carbono (CO), se pueden medir con un espec- 
trómetro. En una prueba de calibración, se hicieron 50 me- 
diciones de una muestra de gas del laboratorio que se sabía 
tenía una concentración de CO de 70 partes por millón 
(ppm). Se considera que una medición es satisfactoria si es- 
tá dentro de 5 ppm de la concentración verdadera. De las 50 
mediciones, 37 fueron satisfactorias. 


a) ¿Qué proporción de mediciones de la muestra fue satis- 
factoria? 

b) Determine un intervalo de confianza de 95% para la pro- 
porción de mediciones hechas por este instrumento que 
serán satisfactorias. 


c) ¿Cuántas mediciones se debe tomar para especificar la 
proporción de mediciones satisfactorias dentro de 
0.10 con una confianza de 95%? 


d) Determine un intervalo de confianza de 99% para la pro- 
porción de mediciones hechas por este instrumento que 
será satisfactorio. 


e) ¿Cuántas mediciones se debe tomar para especificar la 
proporción de mediciones satisfactorias dentro de 
0.10 con una confianza de 99%? 


. En cierto día, se fabricó gran número de fusibles, cada uno 
tasado a 15 A. Al extraer una muestra de 75 de la produc- 
ción del día, se encontró que 17 de ellos tenían amperajes 
de quemado mayores de 15 A. 


a) Determine un intervalo de confianza de 95% para la pro- 
porción de fusibles fabricada ese día, cuyo amperaje de 
quemado es mayor que 15 A. 


3. 


porción de fusibles fabricados ese día, cuyo amperaje de 
quemado es mayor que 15 A. 


c) Determine el tamaño muestral necesario para que un in- 
tervalo de confianza de 95% especifique la proporción 
dentro de +0.05. 


d) Determine el tamaño muestral necesario para que un in- 
tervalo de confianza de 98% especifique la proporción 
dentro de +0.05. 


e) Si se calcula un intervalo de confianza de 95% a diario 
durante 200 días, ¿cuál es la probabilidad de que más de 
192 intervalos de confianza contengan las proporciones 
verdaderas? 


Un fabricante de refresco compra latas de aluminio de un 
distribuidor externo. Se selecciona una muestra aleatoria de 
70 latas de un envío grande, se prueba la resistencia de ca- 
da una aplicando una carga creciente en los lados de la lata 
hasta que se perfora. De las 70 latas, 52 satisfacen la espe- 
cificación para la resistencia de perforación. 


a) Determine un intervalo de confianza de 95% para la pro- 
porción de latas que satisface la especificación en el envío. 


b) Determine un intervalo de confianza de 90% para la pro- 
porción de latas que satisface la especificación en el envío. 


c) Determine el tamaño muestral necesario para que un in- 
tervalo de confianza de 95% especifique la proporción 
dentro de +0.05. 

d) Determine el tamaño de la muestra necesario para que 


un intervalo de confianza de 90% especifique la propor- 
ción dentro de +0.05. 
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e) Si un intervalo de confianza de 90% se calcula a diario 
durante 300 días, ¿cuál es la probabilidad de que más de 
280 intervalos de confianza contengan las proporciones 
verdaderas? 


Con referencia al ejercicio 1, encuentre un límite inferior de 
confianza de 95% para la proporción de medidas satisfacto- 
rias. 


Con referencia al ejercicio 2, encuentre un límite superior 
de confianza de 98% para la proporción de fusibles con am- 
perajes de quemado mayores de 15 A. 


Con referencia al ejercicio 3, encuentre un límite inferior de 
confianza de 99% para la proporción de latas que satisface 
la especificación. 


Se prueba una muestra aleatoria de 400 componentes elec- 
trónicos fabricados por cierto proceso y se encuentra que 30 
están defectuosos. 


a) Sea p la proporción de componentes fabricados con es- 
te proceso que están defectuosos. Determine un interva- 
lo de confianza de 95% para p. 


b) ¿Cuántos componentes se deben muestrear con el pro- 
pósito de que el intervalo de confianza de 95% especifi- 


que la proporción defectuosa dentro de 0.02? 


c) (Difícil) La compañía envía los componentes en lotes de 
200. Los lotes que contienen más de 20 componentes 
defectuosos pueden ser regresados. Determine un inter- 
valo de confianza de 95% para la proporción de lotes 


que serán regresados. 


Con referencia al ejercicio 7, se fabricará un dispositivo en 
el cual se conectarán en serie dos de los componentes del 
ejercicio 7. Los componentes funcionan de manera inde- 
pendiente, el dispositivo funcionará sólo si ambos compo- 
nentes funcionan. Sea q la probabilidad de que un 
dispositivo funcione. Determine un intervalo de confianza 
de 95% para q. (Sugerencia: exprese q en función de p, y 
después utilice el resultado del ejercicio 7a.) 


El artículo “Leachate from Land Disposed Residential 
Construction Waste” (W. Weber, Y. Jang y cols., en Journal 
of Environmental Engineering, 2002:237-245) presenta un 
estudio de la contaminación en basureros que contienen de- 
sechos de construcción y desperdicio de demolición. De un 
sitio de prueba se tomaron muestras de lixiviado. De cada 
42 muestras, 26 contienen niveles detectables de plomo, 41 
de arsénico y 32 de cromo. 


10. 


11 


a) Encuentre un intervalo de confianza de 90% para la pro- 
babilidad de que una muestra contendrá un nivel detec- 
table de plomo. 


b) Determine un intervalo de confianza de 95% para la pro- 
babilidad de que una muestra contenga un nivel detecta- 


ble de arsénico. 


c) Determine un intervalo de confianza de 99% para la pro- 
babilidad de que una muestra contenga un nivel detecta- 


ble de cromo. 


Los aceros inoxidables pueden ser susceptibles al agrieta- 
miento de corrosión por tensión bajo ciertas condiciones. 
Un ingeniero especializado en materiales está interesado en 
determinar la proporción de fallas de aleaciones de acero 
que son atribuibles al agrietamiento de corrosión por ten- 
sión. 


a) En ausencia de datos preliminares, ¿de qué tamaño de- 
be ser una muestra para asegurar que el intervalo de con- 
fianza de 95% especificará la proporción dentro de 
0.057 

En una muestra de 100 fallas, 20 eran ocasionadas por 
el agrietamiento de corrosión por tensión. Encuentre un 
intervalo de confianza de 95% para la proporción de fa- 
llas ocasionadas por el agrietamiento de corrosión por 
tensión. 


b) 


c) Con base en los datos del inciso (b), calcule el tamaño 
muestral necesario con el propósito de que el intervalo 
de confianza de 95% especificará la proporción dentro de 


0.05. 


Para que los proyectos de remediación ecológica muy impor- 
tantes sean exitosos, deben tener apoyo público. El artículo 
“Modelling the Non-Market Environmental Costs and Be- 
nefits of Biodiversity Using Contingent Value Data” (D. 
Macmillan, E. Duff y D. Elston, en Environmental and Re- 
source Economics, 2001:391-410) notifica los resultados de 
una encuesta en que a votantes escoceses se les preguntó si 
estarían dispuestos a pagar impuestos adicionales con la fi- 
nalidad de restaurar el bosque Affric. De los 189 que respon- 
dieron, 61 decían que sí apoyarían esa medida. 


a) Suponiendo que los 189 votantes que respondieron, 
constituyen una muestra aleatoria, determine un interva- 
lo de confianza de 90% para la proporción de votantes 
que estarían dispuestos a pagar para restaurar el bosque 
Affric. 


¿Cuántos votantes se deben muestrear para especificar la 
proporción dentro de +0.03 con una confianza de 90%? 


b) 


c) 


Se planea realizar otra encuesta en la cual se les pregun- 
tará a los votantes si estarían dispuestos a pagar con la 
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finalidad de restaurar el bosque Strathspey. En este mo- 12. Un analista del mercado de valores observa que, en cierto 


mento, no hay alguna estimación disponible. Determine año, el precio de cada acción de la IBM aumentó en 131 de 
un cálculo conservador del tamaño muestral necesario los 252 días bursátiles. ¿Con estos datos se puede encontrar 
con el propósito de que la proporción estará especifica- un intervalo de confianza de 95% para la proporción de días 
da dentro de +0.03 con una confianza de 90 por ciento. en que la acción de IBM se incrementa? Explique. 


5.3 Intervalos de confianza para la media poblacional 
con muestras pequeñas 


Los métodos descritos en la sección 5.1 con el fin de calcular intervalos de confianza para la 
media de una población requieren que el tamaño muestral sea grande. Cuando éste es peque- 
ño, no hay ningún buen método general para encontrar intervalos de confianza. Sin embargo, 
cuando la población es aproximadamente normal, se puede utilizar una distribución de pro- 
babilidad denominada £ de Student para calcular los intervalos de confianza para una media 
poblacional. En esta sección se describe dicha distribución y se muestra cómo utilizarla. 


Distribución t de Student 


Si X es la media de una muestra grande de tamaño n de una población con media yu y varian- 
za 0”, entonces el teorema del límite central especifica que X — N(u, a/n). La cantidad 
(X — wa! yn) tiene una distribución normal con media O y varianza 1. Además, la desvia- 
ción estándar muestral s estará cerca de la desviación estándar a poblacional. Por esta razón 
la cantidad (X — w)/(s//n) es aproximadamente normal con media O y varianza 1, por lo que 
se pueden buscar las probabilidades relacionadas con esta cantidad en la tabla normal están- 
dar (tabla z). Esto último permite que se calcule intervalos de confianza para diferentes nive- 
les para la media poblacional q. 

¿Qué se puede hacer si X es la media de una muestra pequeña? Si éste es pequeño, s 
podría no estar cercano a d, y X puede no ser aproximadamente normal. Si no se sabe nada 
acerca de la población de la que la muestra pequeña fue extraída, entonces no hay ningún mé- 
todo fácil para calcular intervalos de confianza. Sin embargo, si la población es aproximada- 
mente normal, X lo será incluso cuando el tamaño muestral sea pequeño. Lo anterior propicia 
que aún se puede utilizar la cantidad (X — ¡u)(s/ /n), pero debido a que s no está necesaria- 
mente cercana a dr, esta cantidad no tendrá una distribución normal. En su lugar, tiene la dis- 
tribución £ de Student con n — 1 grados de libertad, que se denota por f, _ ¡. El número de 
grados de libertad para la distribución f es uno menos que el tamaño muestral. 

La distribución £ de Student fue descubierta en 1908 por William Sealy Gossett, un es- 
tadístico que trabajó en la cervecera Guinness, en Dublín, Irlanda. La dirección de Guinness 
consideró que el descubrimiento era información privada y prohibió a Gossett que lo publi- 
cara. Aun así, él lo publicó, usando el seudónimo “Estudiante”. Gossett había hecho ya esto 
antes; véase la sección 4.3. 
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Sea X,, ..., X, una muestra pequeña (por ejemplo n < 30) de una población normal 
con media q. Entonces la cantidad 


xp 
s/y/n 
tiene una distribución £ de Student con n — 1 grados de libertad, denotada por £, — ;. 


Cuando n es grande, la distribución de la cantidad (X — wWM(s/ /n) es muy cercana 
a la curva normal, de esta forma la curva normal puede usarse en lugar de la £ de Stu- 
dent. 


La función de densidad de probabilidad de la distribución £ de Student es diferente pa- 
ra distintos grados de libertad. La figura 5.9 presenta gráficas de la función de densidad de 
probabilidad para diferentes elecciones de grados de libertad. Las curvas tienen una forma si- 
milar a la curva normal, o z, es una curva con media O y desviación estándar 1. Sin embargo, 
las curvas £ son más extendidas. Por ejemplo, la curva £ con un grado de libertad correspon- 
de a un tamaño muestral de 2. Cuando se extraen muestras de tamaño 2, ocurrirá con frecuen- 
cia que la desviación estándar muestral s sea mucho más pequeña que dr, lo que llevará a que 
el valor de (X — 1)(s//n) sea muy grande (ya sea positivo o negativo). Por esta razón, la curva 
t con un grado de libertad tiene mucho más área en las colas. Para tamaños muestrales más 
grandes, el valor de s es menos probable que esté lejos de d y la curva £ es más cercana a la 
curva normal. Con diez grados de libertad (correspondiendo a un tamaño muestral de 11), la di- 
ferencia entre la curva £ y la curva normal no es grande. Si una curva £ con 30 grados de la li- 
bertad estuviera dibujada en la figura 5.9, sería indistinguible de la curva normal. 


FIGURA 5.9 Gráficas de la función de densidad de probabilidad de la curva £ de Student 
para diferentes grados de libertad. La curva normal con media O y varianza 1 (curva z) es 
graficada para comparar. Las curvas f están más extendidas que la normal, pero la cantidad 
de extensión adicional disminuye conforme se aumenta el número de grados de libertad. 


Ejemplo 
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La tabla A.3 (en el Apéndice A), denominada tabla £, proporciona probabilidades rela- 
cionadas con la distribución £ de Student. Se presentan algunos ejemplos para mostrar el uso 
de la tabla. 


Se extrae una muestra aleatoria de tamaño 10 de una distribución normal con media 4. La 
estadística f de Student + = (X — A)Ns/ (10) es calculada. ¿Cuál es la probabilidad de que 
t>1.8337 


Solución 
Esta estadística f tiene 10 — 1 = 9 grados de libertad. De la tabla £, P(+ > 1.833) = 0.05. Véa- 


se la figura 5.10. 
IN 


l 
0 1.833 
FIGURA 5.10 Solución al ejemplo 5.15. 


Con referencia al ejemplo 5.15, determine P(t+ > 1.5). 


Solución 
Buscando a través del renglón correspondiente a 9 grados de libertad, se ve que la tabla £ no 
lista el valor 1.5. Se encuentra que P(+ > 1.383) = 0.10 y que P(t > 1.833) = 0.05. Se con- 
cluye entonces que 0.05 < P(+ > 1.5) < 0.10. Véase la figura 5.11. Un resultado más preci- 
so que esta desigualdad se puede obtener mediante interpolación lineal 

1.5— 1.383 


P 1.5) = 0.1 .1 .05) = 0.087 
(t > 1.5) = 0.10 1833-1330 0 — 0.05) = 0.0870 


Un software proporciona la respuesta correcta con tres dígitos significativos como 0.0839. 


0.10 
0.05 
| 


O  1.38—|1.83 
1.5 
FIGURA 5.11 Solución al ejemplo 5.16. 


Determine el valor para la distribución f,, cuya cola superior de probabilidad es 0.025. 
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Solución 
Al buscar hacia abajo la columna encabezada con “0.025” en el renglón correspondiente a 12 
grados de libertad. El valor para £,, es 2.179. 


Determine el valor para la distribución de f¡, cuya cola de la probabilidad inferior es 0.01. 


Solución 

Busque hacia abajo de la columna encabezada con “0.01” en el renglón que corresponde a 14 
grados de libertad. El valor para ft, es 2.624. Este valor corta un área, o probabilidad, de 1% 
en la cola superior. El valor cuya cola inferior de probabilidad es 1% es —2.624. 


No use la estadística t de Student si la muestra 
contiene datos atípicos 


Para que la estadística £ de Student sea válida, la muestra debe provenir de una población que 
es aproximadamente normal. Tales muestras rara vez contienen datos atípicos. Por tanto, los 
métodos que implican la estadística £ de Student no se deben utilizar en muestras que contie- 
nen datos atípicos. 


Intervalos de confianza al usar la distribución t de Student 


Cuando el tamaño muestral es pequeño y la población es aproximadamente normal, se puede 
utilizar la distribución £ de Student para calcular intervalos de confianza. Se muestra esto úl- 
timo con un ejemplo. 

Un metalúrgico estudia un nuevo proceso de soldadura. Fabrica cinco uniones soldadas 
y mide la resistencia producida por cada uno. Los cinco valores (en ksi) son 56.3, 65.4, 58.7, 
70.1 y 63.9. Suponga que estos valores son una muestra aleatoria de una población aproxima- 
damente normal. La tarea es determinar un intervalo de confianza para la media de la resis- 
tencia de las soldaduras hechas por este proceso. 

Cuando el tamaño muestral es grande, no necesita preocuparse mucho acerca de la na- 
turaleza de la población, porque el teorema del límite central garantiza que la cantidad X ten- 
drá una distribución aproximadamente normal. Sin embargo, cuando la muestra es pequeña, 
la distribución de la población debe ser aproximadamente normal. 

En este caso el intervalo de confianza se construye de la misma manera que en la sec- 
ción 5.1, exceptuando que el puntaje z se reemplaza con un valor de la distribución £ de Stu- 
dent. La cantidad 

X-pu 


s/n 


tiene una distribución £ de Student con n — 1 grados de libertad. La figura 5.12 muestra la dis- 
tribución £,¿. De la tabla £ de Student se encuentra que 95% del área bajo la curva está conte- 
nida entre los valores £ = —2.776 y t = 2.776. Por consecuencia, para 95% de todas las 
muestras que se pudo haber elegido, 


X= 
2.176 < —— <2.176 
s/y/n 
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-2.776 0 2.776 


FIGURA 5.12 La distribución £ de Student con cuatro grados de libertad. Un 95% del área 
cae entre 1 = —2.776 y t = 2.776. 


Expresado de otra manera, para 95% de todas las muestras que se pudo haber elegido, se tie- 
ne que 


2.776 


s a s 
XxX 2.1163 

yn A cd yn 

Multiplicando por —1 y al sumar X en todos los lados de la desigualdad, se obtiene un inter- 

valo de confianza 95% para pu: 


— Ss > Ss 
Xx 2.1163 X+2.716= 
Íñ <p<Xz+ a 


En este ejemplo, la media muestral es X = 62.88 y la desviación estándar muestral es 
s = 5.4838. El tamaño muestral es n = 5. Al sustituir valores para X, s y n, se encuentra que 
un intervalo de confianza de 95% para pu es 62.88 — 6.81 < u < 62.88 + 6.81, o (56.07, 
69.69). 

En general, para producir un intervalo de confianza de nivel 100(1 — 0)%, sea t,, — 1 on 
el 1 — qv/2 cuantil de la distribución £ de Student con n — 1 grados de libertad, es el valor que 
corta un área de (0/2 en la cola de la derecha. Por ejemplo, antes se encontró que fa 005 = 
2.776. Entonces un intervalo de confianza de nivel 100(1 — 0% para la media y poblacio- 
nales X — t, 1 099 ks//n) <p <X + to 1 01 4s/.[M), OX E ty — 1, oks! /n). 


Sea X;, ..., X, una muestra aleatoria pequeña de una población normal con media pu. 
Entonces un intervalo de confianza de nivel 100(1 — 0%)% para y es 


Es (5.9) 


yn 


¿Cómo se determina si la distribución t de Student es adecuada? 


La distribución £ de Student es adecuada siempre que la muestra provenga de una población 
que es más o menos normal. A veces se sabe por experiencia si un proceso genera datos con 
una distribución aproximada. Sin embargo, en muchos casos, se debe decidir si una población 
es aproximadamente normal examinando la muestra. Por desgracia, cuando el tamaño mues- 
tral es pequeño, desviaciones a la normalidad pueden ser difíciles de detectar. Una manera ra- 
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zonable de proceder es construir un diagrama de caja o de puntos de la muestra. Si estos dia- 
gramas no revelan una asimetría fuerte o algún dato atípico, entonces en la mayor parte de los 
casos la distribución f de Student será confiable. En principio, también se puede determinar 
si una población es aproximadamente normal al construir una gráfica de probabilidad. Sin 
embargo, con muestras pequeñas, los diagramas de caja y de puntos son más fáciles de dibu- 
jar, especialmente a mano. 


El artículo “Direct Strut-and-Tie Model for Prestressed Deep Beams” (K. Tan, K. Tong y C. 
Tang, en Journal of Structural Engineering, 2001:1076-1084) presenta mediciones de la fuer- 
za nominal de corte (en kN) para una muestra de 15 vigas de concreto. Los resultados son 


580 400 428 825 850 875 920 550 
575 750 636 360 590 735 950 


¿Es adecuado utilizar la estadística £ de Student para construir un intervalo de confianza de 
99% para la media de la fuerza de corte? Si es así, construya el intervalo de confianza. Si no, 
explique por qué. 


Solución 
Para determinar si la estadística £ de Student es adecuada, se hace un diagrama de caja y de 
puntos de la muestra. Estos se muestran en la figura siguiente. 


1000 


900 + 7 


800 + y 


700 - 


600 + - 


Fuerza de corte (kN) 


500 + - 


400L - 


e... e. e e. e... .. 
l | | | ] | ] 
300 400 500 600 700 800 900 1000 
Fuerza de corte (kN) 


No hay evidencia de una desviación muy importante a la normalidad; en particular las 
gráficas no son fuertemente asimétricas, y no hay algún dato atípico. El método t de Student 
es adecuado. Por tanto, se calcula X = 668.27 y s = 192.089. Se utiliza la expresión (5.9) con 
n= 15 y q/2 = 0.005. De la tabla £ con 14 grados de libertad, se encuentra fia 0.005 = 2.977. 
El intervalo de confianza de 99% es 668.27 + (2.977)1(192.089)///15, o (520.62, 815.92). 
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El siguiente resultado de computadora (de MINITAB) presenta el intervalo de confian- 
za calculado en el ejemplo 5.19. 


One-Sample T: Strength 
Test of mu = 0 vs not = 0 


Variable N Mean StDev SE Mean 99% Cl 
Strength 15 668.2667 192.0891 49.59718 (520.6159, 815.9175) 


El resultado es muy claro. La cantidad etiquetada “SE Mean” representa la desviación están- 
dar de la media muestral, s//n. 


En el artículo referido en el ejemplo 5.19, la fuerza compresiva cilíndrica (en MPa) fue me- 
dida para 11 vigas. Los resultados fueron 


38.43 38.43 38.39 38.83 38.45 38.35 38.43 38.31 38.32 38.48 38.50 


¿Es adecuado utilizar la estadística £ de Student para construir un intervalo de confianza de 
95% para la media de la fuerza compresiva cilíndrica? Si es así, construya el intervalo de con- 
fianza. Si no, explique por qué. 


Solución 
Como en el ejemplo 5.19, se realizará un diagrama de caja y un diagrama de puntos de la 
muestra. Estos se muestran en la figura siguiente. 
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Hay un dato atípico en esta muestra. La estadística £ de Student no se debe utilizar. 
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Un ingeniero lee un informe que dice que una muestra de 11 vigas de concreto tenía una fuer- 
za compresiva promedio de 38.45 MPa con desviación estándar de 0.14 MPa. ¿Se debe utili- 
zar la curva f para encontrar un intervalo de confianza para la media de la fuerza compresiva? 


Solución 

No. El problema es que no hay ninguna manera de saber si las mediciones provienen de una 
población normal. Por ejemplo, si las mediciones contienen un dato atípico (como en el ejem- 
plo 5.20), el intervalo de confianza sería inválido. 


La distribución £ de Student se puede utilizar para calcular intervalos de confianza de 
un lado. Las fórmulas son análogas a las que se utilizan con muestras grandes. 


Sea X;, . .., X, una muestra aleatoria pequeña de una población normal con media 
p.. Entonces un límite superior de confianza de nivel 100(1 — 0% para y es 


X+ hola (5.10) 


y un límite inferior de confianza de nivel 100(1 — 0% para y es 


os lite (5.11) 


Utilice z, no t, si se conoce a 


En ocasiones se puede tomar una pequeña muestra de una población normal cuya desviación 
estándar dr se conoce. En estos casos, no se utiliza la curva £ de Student, porque no se está 
aproximando a a con s. En su lugar, se utiliza la tabla z. El ejemplo 5.22 ilustra el método. 


Con referencia al ejemplo 5.19. Suponga, con base en un número muy grande de mediciones 
previas de otras vigas, que la población de las fuerzas de corte es aproximadamente normal, 
con desviación estándar o = 180.0 kN. Encuentre un intervalo de confianza de 99% para la 
media de la fuerza de corte. 


Solución 

Se calcula X = 668.27. No se necesita calcular s, porque se conoce la desviación estándar po- 
blacional dr. Dado que se quiere un intervalo de confianza de 99%, (4/2 = 0.003. Ya que se 
conoce 9, se utiliza Zoy = Zo.00s, en lugar de un valor de £ de Student, para calcular el inter- 
valo de confianza. De la tabla z se obtiene Zo.005 = 2.58. El intervalo de confianza es 668.27 
+ (2.581(180.0/,/15, o (548.36, 788.18). 


Es importante recordar que cuando el tamaño muestral es pequeño, la población debe 
ser aproximadamente normal, se conozca o no la desviación estándar. 
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Sea X,, . 


za de nivel 100(1 — 0.)% es 


. . , X, una muestra aleatoria (de cualquier tamaño) de una población normal 
con media . Si se conoce la desviación estándar a”, entonces un intervalo de confian- 


— O 
XIZzqg 


Jn 


(5.12) 


En ocasiones se tiene un solo valor que se muestrea de una población normal con des- 
viación estándar conocida. En estos casos se puede obtener un intervalo de confianza para u 
y deducir como un caso especial de la expresión (5.12) al hacer n = 1. 


10011 — 0)% para y es 


Sea X un solo valor que se muestrea de una población normal con media . Si 
se conoce la desviación estándar o, entonces un intervalo de confianza de nivel 


Xzw Za/20 


(5.13) 


Ejercicios para la sección 5.3 


1. 


Determine el valor de 1, _ ; ¿y, necesario para construir un 
intervalo de confianza de dos lados de un nivel específico 
con los siguientes tamaños muestrales: 


a) Nivel 90%, tamaño muestral 9. 
b) Nivel 95%, tamaño muestral 5. 
c) Nivel 99%, tamaño muestral 29. 


d) Nivel 95%, tamaño muestral 2. 


Determine el valor de 1, _ ; ¿necesario para construir un lí- 
mite superior o inferior de confianza en cada uno de los ca- 
sos del ejercicio 1. 


Determine el nivel de confianza para un intervalo de dos la- 
dos que está basado en el valor dado de f,, _ ; yy, y el tama- 
ño muestral específico. 


a) t= 2.179, tamaño muestral 13. 


b) t= 3.365, tamaño muestral 6. 


c) t= 1.729, tamaño muestral 20. 
d) t= 3.707, tamaño muestral 7. 


e) t= 3.707, tamaño muestral 27. 


. Verdadero o falso: La distribución £ de Student se puede uti- 


lizar para construir un intervalo de confianza para la media 
de cualquier población, en tanto que el tamaño muestral sea 
pequeño. 


. El artículo “Ozone for Removal of Acute Toxicity from 


Logyard Run-off” (M. Zenaitis y S. Duff, en Ozone Scien- 
ce and Engineering, 2002:83-90) presenta análisis quími- 
cos del agua que escurre de aserraderos en la Columbia 
Británica. Incluye seis mediciones de pH para seis muestras 
de agua: 5.9, 5.0, 6.5, 5.6, 5.9, 6.5. Suponiendo que éstas 
sean una muestra aleatoria de las muestras de agua de una 
población aproximadamente normal, encuentre un intervalo 
de confianza de 95% para la media del pH. 
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6. Los siguientes son resúmenes estadísticos para un conjunto de datos. ¿Sería adecuado utilizar la distribución t de Student para 
construir un intervalo de confianza de estos datos? Explique. 


N Mean Median TrMean StDev SE Mean 

10 8.905 6.105 6.077 9.690 3.064 
Minimum Maximum 01 03 
0.512 39.920 1.967 8.103 


. El artículo “An Automatic Visual System for Marble Tile 
Classification” (L. Carrino, W. Polini, y S. Turchetta, en 
Journal of Engineering Manufacture, 2002:1095-1108) 
describe una medida para la sombra del azulejo de mármol 
en el cual la cantidad de luz reflejada por éste se mide en 
una escala de 0-255. Un azulejo perfectamente negro no re- 
fleja luz alguna y mide 0, y un azulejo perfectamente blan- 
co mediría 255. Se midió una muestra de nueve azulejos 
Mezza Perla, con los siguientes resultados: 


204.999 206.149 202.102 207.048 203.496 
206.343 203.496 206.676 205.831 


¿Es adecuado utilizar la estadística 1 de Student para cons- 
truir un intervalo de confianza de 95% para la media de la 
sombra del azulejo Mezza Perla? Si es así, hágalo. Si no, 
explique por qué. 


. Una química hizo ocho mediciones independientes del pun- 
to de fusión del tungsteno. Obtuvo una media muestral de 
3 410.14*C y una desviación estándar muestral de 1.018*C. 


a) Determine un intervalo de confianza de 95% para el 
punto de fusión del tungsteno. 


b) Determine un intervalo de confianza de 98% para el 
punto de fusión del tungsteno. 


c) Si las ocho mediciones hubieran sido 3 409.76, 3 409.80, 
3 412.66, 3 409.79, 3 409.76, 3 409.77, 3 409.80 y 
3 409.78 ¿serían válidos los intervalos de confianza que 
se encuentran en los incisos a) y b)? Explique. 


. Se hacen ocho mediciones independientes del diámetro de 
un pistón. Las mediciones (en pulgadas) son 3.236, 3.223, 
3.242, 3.244, 3.228, 3.253, 3.253 y 3.230. 


a) Realice un diagrama de puntos de los ocho valores. 


b) ¿Se debe utilizar la curva f para encontrar un intervalo 
de confianza de 99% para el diámetro de este pistón? Si 
es así, encuentre el intervalo de confianza. Si no, expli- 
que por qué. 

c) Se toman ocho mediciones independientes del diámetro 
de otro pistón. Las mediciones en este momento son 


10. 


11. 


12. 


3.295, 3.232, 3.261, 3.248, 3.289, 3.245, 3.576 y 3.201. 
Realice un diagrama de puntos de estos valores. 


d) ¿Se debe utilizar la curva f para encontrar un intervalo 
de confianza de 95% para el diámetro de este pistón? Si 
es así, encuentre el intervalo de confianza. Si no, expli- 
que por qué. 


Se toman cinco mediciones de la clasificación de octano pa- 
ra un tipo especial de gasolina. Los resultados (en %) son 
87.0, 86.0, 86.5, 88.0, 85.3. Encuentre un intervalo de con- 
fianza de 99% para la media de la clasificación de octano de 
media para este tipo de gasolina. 


Un modelo de transferencia de calor de un cilindro sumer- 
gido en un líquido predice que el coeficiente de transferen- 
cia de calor para el cilindro es constante en razones muy 
bajas de circulación del fluido. Se toma una muestra de diez 
mediciones. Los resultados, en W/m?K, son 


13.7 
14.1 


12.0 
14.4 


13.1 
12,2 


14.1 
11.9 


Determine un intervalo de confianza de 95% para el coefi- 
ciente de transferencia de calor. 


13.1 
11.8 


Los tensioactivos son agentes químicos, como detergentes, 
que bajan la tensión superficial de un líquido. Son impor- 
tantes en la limpieza de suelos contaminados. En un expe- 
rimento para determinar la eficacia de cierto método para 
retirar tolueno de arena, esta última fue lavada con un agen- 
te tensioactivo, y luego enjuagada con agua desionizada. Es 
importante la cantidad de tolueno que sale en el enjuague. 
En cinco de estos experimentos, las cantidades de tolueno 
eliminado en el ciclo de enjuague, expresado como porcen- 
taje de la cantidad total originalmente presente, fueron de 
5.0, 4.8, 9.0, 10.0 y 7.3. Determine el intervalo de confianza 
de 95% para el porcentaje de tolueno eliminado en el enjua- 
gue. (Este ejercicio está basado en el artículo “Laboratory 
Evaluation of the Use of Surfactants for Ground Water Re- 
mediation and the Potential for Recycling Them” D. Lee, R. 
Cody, y B. Hoyle, en Ground Water Monitoring and Reme- 
diation, 2001:49-57.) 


13. 


14. 


15. 


16. 
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En un experimento para medir la razón de absorción de pesticidas a través de la piel, 500 ug de uniconazol se aplicó a la piel 
de cuatro ratas. Después de diez horas, las cantidades absorbidas (en ug) fueron 0.5, 2.0, 1.4 y 1.1. Encuentre un intervalo de 
confianza de 90% para la media de la cantidad absorbida. 


El siguiente resultado de MINITAB presenta un intervalo de confianza para una media poblacional. 


One-Sample T: X 


Variable N Mean StDev SE Mean 95% CI 
X 10 6.59635 0.11213 0.03546 (6.51613, 6.67656) 


a) ¿Cuántos grados de libertad tiene la distribución t de Student? 


b) Utilice la información en el resultado, junto con la tabla t, para calcular un intervalo de confianza de 99 por ciento. 


El siguiente resultado de MINITAB presenta un intervalo de confianza para una media poblacional, pero algunos de los núme- 
ros están borrosos y son ahora ilegibles. Complete los números faltantes para (a), (b) y (c). 


One-Sample T: X 


Variable N Mean StDev SE Mean 99% CI 
X 20 2.39374 (a) 0.52640 ( (b), (c) ) 


La concentración de monóxido de carbono (CO) en una muestra de gas se mide con un espectrómetro y se encuentra que es de 
85 ppm. A partir de la gran experiencia con este instrumento, se cree que sus mediciones no tienen sesgos y se distribuyen nor- 
malmente, con incertidumbre (desviación estándar) de 8 ppm. Determine un intervalo de confianza de 95% para la concentra- 
ción de CO en esta muestra. 


5,4 Intervalos de confianza para la diferencia 


entre dos medias 


Ahora se tratan ejemplos en los que se desea calcular la diferencia entre las medias de dos po- 
blaciones. Los datos constarán de dos muestras, una para cada población. La idea básica es 
simple. Se calculará la diferencia de las medias muestrales y la desviación estándar de esa di- 
ferencia. Entonces una modificación simple de la expresión (5.1) (de la sección 3.1) propor- 
cionará el intervalo de confianza. El método que se describe está basado en los resultados que 
se relacionan con la suma y la diferencia de dos variables aleatorias normales independientes 
que se presentaron en la sección 4.5. Aquí se repasan estos resultados: 


Sean X y Y independientes, con X — Nx, O) y Y =— My, 5). Entonces 
X + Y — Nx + y, 0% + 05) (5.14) 


O O O) (5:15) 
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Ahora se verá cómo construir un intervalo de confianza para la diferencia entre dos me- 
dias poblacionales. Como ejemplo, suponga que se ha estado desarrollando un diseño nuevo 
de foco que se piensa durará más que el diseño viejo. Una muestra aleatoria simple de 144 fo- 
cos nuevos tiene un tiempo de vida promedio de 578 horas y una desviación estándar de 22 
horas. Una muestra aleatoria simple de 64 focos viejos tiene tiempo de vida promedio de 551 ho- 
ras y desviación estándar de 33 horas. Las muestras son independientes, de tal manera que los 
tiempos de vida para una muestra no influyen sobre los tiempos de vida de la otra. Se quiere 
encontrar un intervalo de confianza de 95% para la diferencia entre la media de los tiempos 
de vida de los focos de los dos diseños. 

Se inicia por traducir el problema en el lenguaje estadístico. Se tiene una muestra alea- 


toria simple X,,..., X¡44 de los tiempos de vida de los focos nuevos. La media muestral es 
X = 578 y la desviación estándar muestral es sy = 22. Se tiene otra muestra aleatoria simple 
Y ¡, . . . , Yg de los tiempos de vida de los focos viejos. Esta muestra tiene una media Y = 551 


y desviación estándar sy = 33. Las medias poblacionales y las desviaciones estándares no se 
conocen. Se denota a la media poblacional de los tiempos de vida de los nuevos focos por uy 
y la media poblacional de los focos viejos por uy. Se denota las correspondientes desviacio- 
nes estándares por dx y dy. Se tiene interés en la diferencia uy — My. 

Se puede construir el intervalo de confianza para uy — uy determinando la distribución 
X — Y. Mediante el teorema del límite central, X proviene de una distribución normal con me- 
dia qx y desviación estándar a y/,/144, y Y proviene de una distribución normal con media uy 
y desviación estándar o y//64. Dado que las muestras son independientes, se tiene por medio 
de la expresión (5.15) que la diferencia X — Y proviene de una distribución normal con me- 
dia uz — py y varianza 0% - y = 0%/144 + 07/64. La figura 5.13 muestra la distribución de 
X — Y e indica que 95% intermedio de la curva tiene un ancho + 1.960 _ y. 


95% 
l 
4x=Hy=19603—y  Hx—Hy 4x7 My+1907-— y 


>> 


FIGURA 5.13 La diferencia observada X — Y = 27 se extrae de una distribución normal 
con media ux — py y desviación estándar 0% 7 = y 0%/144 + 07/64. 


Al estimar las desviaciones estándares poblacionales dy y dy con las desviaciones están- 
dares muestrales sx = 22 y sy = 33, respectivamente, se estima 07_7 Y y/22?/144+33?/64 
= 4.514. Por tanto, el intervalo de confianza de 95% para hy — myes 578 — 551 + 1.96(4.514), 
027 + 8.85. 
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Sea X;,..., X,, una muestra aleatoria grande de tamaño nx de una población con me- 
dia yx y desviación estándar Ox, y Sea Y... > => Ya, Una muestra aleatoria simple gran- 
de de tamaño ny de una población con media uy y desviación estándar dy. Si las dos 
muestras son independientes, con un intervalo de confianza de nivel 100(1 — 0)% para 


Mx — Myés 


(5.16) 


Cuando los valores de dy y yson desconocidos, se pueden sustituir con las desviacio- 
nes estándares muestrales sy y Sy. 


La composición química del suelo varía con la profundidad. El artículo “Sampling Soil Water 
in Sandy Soils: Comparative Analysis of Some Common Methods” (M. Ahmed, M. Sharma 
y colaboradores, en Communications in Soil Science and Plant Analysis, 2001:1677-1686) 
describe análisis químicos del suelo tomado de una granja en Australia occidental. Se toman 
50 muestras a profundidades de 50 y 250 cm. A una profundidad de 50 cm, la concentración 
promedio de NO, (en mg/l) era de 88.5 con una desviación estándar de 49.4. A una profun- 
didad de 250 cm, la concentración promedio era de 110.6 con una desviación estándar de 
51.5. Determine un intervalo de confianza de 95% para la diferencia entre las concentracio- 
nes de NO, a las dos profundidades. 


Solución 

Sean X,,..., X5y las concentraciones de 50 muestras tomadas a 50 cm y sean Y, ..., Ysy las 
concentraciones de 50 muestras tomadas a 250 cm. Entonces X = 88.5, Y = 110.6, sx = 49.4 
y Sy = 51.5. Los tamaños muestrales son nx = ny = 50. Ambas muestras son grandes, por lo 
que se puede utilizar la expresión (5.16). Como consecuencia de que se quiere un intervalo de 
confianza de 95%, zo = 1.96. El intervalo de confianza de 95% para la diferencia uy — Mx 
es 110.6 — 88.5 + 1.96 ,/49.42/50 + 51.52/50, 022.1 + 19.8. 


Ejercicios para la sección 5.4 


1. Se están comparando los puntos de fusión de dos aleaciones. 


2. En un experimento para determinar el efecto de la tempera- 


Se fusionaron 35 ejemplares de la aleación 1. La temperatu- 
ra promedio de fusión fue de 517.09F y la desviación están- 
dar fue de 2.4%F. Se fusionaron 47 ejemplares de la aleación 
2. La temperatura promedio fue de 510.19F y la desviación 
estándar fue 2.1%F. Determine un intervalo de confianza de 
99% para la diferencia entre los puntos de fusión. 


tura en la tasa de deposición del tungsteno sobre placas de 
silicio, se procesaron 64 placas a 400%C y se procesaron 88 
placas a 425”C. La tasa de deposición promedio para las 
placas procesadas a 400"C fue de 1 840 Á/min, con una 
desviación estándar de 244 Á/min. Las placas procesadas a 
425*C promedian 2 475 Á/min, con desviación estándar de 
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760 Á/min. Determine un intervalo de confianza de 95% 
para la diferencia entre las medias de las tasas de deposi- 
ción. 


. El artículo “Vehicule-Arrival Characteristics at Urban Un- 


controlled Intersections” (V. Rengeraju y V. Rao, en Jour- 
nal of Transportation Engineering, 1995:317-323) presenta 
datos de las características del tránsito en diez cruceros en 
Madras, India. En un crucero específico, la rapidez prome- 
dio para una muestra de 39 automóviles era de 26.50 km/h, 
con desviación estándar de 2.37 km/h. La rapidez promedio 
para una muestra de 142 motocicletas era de 37.14 km/h, 
con desviación estándar de 3.66 km/h. Determine un inter- 
valo de confianza de 95% para la diferencia entre las me- 
dias de la rapidez de las motocicletas y de los automóviles. 


. Se realizó un análisis de tensión en muestras aleatorias de 


uniones pegadas con resina epoxídica de dos clases de made- 
ra. Una muestra aleatoria de 120 uniones de la clase A tuvo 
una media de tensión de corte de 1 250 psi y una desviación 
estándar de 350 psi, y una muestra aleatoria de 90 uniones 
de la clase B tuvo una media de tensión de corte de 1 400 psi 
y una desviación estándar de 250 psi. Encuentre un interva- 
lo de confianza de 98% para la diferencia en las medias de 
la tensión de corte de las dos clases. 


. En un estudio para comparar dos inhibidores de corrosión 
diferentes, se sumergieron especímenes de acero inoxidable 
durante cuatro horas en una disolución que contenía ácido 
sulfúrico y un inhibidor de corrosión. Cuarenta y siete espe- 
címenes en presencia del inhibidor A tenían media de la 
pérdida de peso de 242 mg y desviación estándar de 20 mg, y 
42 especímenes en presencia del inhibidor B tenían media 
de pérdida de peso de 220 mg y desviación estándar de 31 mg. 
Determine un intervalo de confianza de 95% para la dife- 
rencia en la media de pérdida de peso de los dos inhibidores. 


. Un ingeniero eléctrico desea comparar las medias de los 
tiempos de vida de dos tipos de transistores en una aplica- 
ción que implica un desarrollo a alta temperatura. Se probó 
una muestra de 60 transistores del tipo A y se encontró que 
tenía media de tiempos de vida de 1 827 horas y desviación 
estándar de 168 horas. Se probó una muestra de 180 transis- 
tores del tipo B y se encontró que tenía media de tiempos de 
vida de 1 658 horas y desviación estándar de 225 horas. De- 
termine un intervalo de confianza de 95% para la diferencia 
entre las medias de los tiempos de vida de los dos tipos de 
transistores. 


7. 


10. 


En un estudio del efecto de tasa de enfriamiento en la dure- 
za de uniones soldadas, se enfriaron 50 soldaduras a tasa de 
10%C/s que tenían un promedio de dureza de Rockwell (B) 
de 91.1 y desviación estándar de 6.23, y se enfriaron 40 sol- 
daduras a tasa de 30%C/s que tenían una media de 90.7 y 
desviación estándar de 4.34. 


a) Determine un intervalo de confianza de 95% para la di- 
ferencia en la dureza entre las soldaduras enfriadas a las 
tasas diferentes. 


b) Alguien dice que la tasa de enfriamiento no tiene ningún 
efecto sobre la dureza. ¿Estos datos contradicen dicha 
afirmación? Explique. 


Con referencia al ejercicio 7 se hacen diez soldaduras más 
para incrementar la precisión del intervalo de confianza. 
¿En cuánto se incrementaría la precisión, enfriando las diez 
soldaduras a una tasa de 10%C/s, enfriando las diez soldadu- 
ras a una tasa de 30%C/s, o enfriando cinco soldaduras a 
10%C/s y cinco a 30%C/s? Explique. 


El artículo “The Prevalence of Daytime Napping and Its 
Relationship to Nighttime Sleep” (J. Pilcher, K. Michal- 
kowski, y R. Canigan), en Behavioral Medicine, 2001:71- 
76) presenta resultados de un estudio de hábitos de sueño en 
gran número de personas. En una muestra de 87 adultos jó- 
venes, el promedio del tiempo por día que pasan en cama 
(ya sea despiertos o dormidos) fue de 7.70 horas, con des- 
viación estándar de 1.02 horas, y el promedio del tiempo 
pasado en cama durmiendo fue de 7.06 horas, con desvia- 
ción estándar de 1.11 horas. La media del tiempo pasado en 
cama despierto se calculó de 7.70 — 7.06 = 0.64 horas. ¿Es 
posible calcular un intervalo de confianza de 95% por la 
media del tiempo pasado en la cama despierto? Si es así, 
construya el intervalo de confianza. Si no es posible, expli- 
que por qué. 


El artículo “Occurrence and Distribution of Ammonium in 
lowa Groundwater” (K. Schilling, en Water Environment 
Research, 2002:177-186) describe las mediciones de las 
concentraciones de amonio (en mg/l) para gran número de 
pozos en lowa. Éstos incluían 349 pozos aluviales y 143 po- 
zos cuaternarios. Las concentraciones en los pozos aluvia- 
les promediaban 0.27 con desviación estándar de 0.40 y los 
pozos cuaternarios promediaban 1.62 con desviación están- 
dar de 1.70. Determine un intervalo de confianza de 95% 
para la diferencia en las medias de las concentraciones de 
los pozos aluviales y los cuaternarios. 
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5.5 Intervalos de confianza para la 
diferencia entre dos proporciones 


En una población de Bernoulli, la media es igual a la probabilidad p de éxito, que es la pro- 
porción de éxitos en la población. Cuando se realizan ensayos independientes de cada una de 
las dos poblaciones de Bernoulli, es posible utilizar métodos similares a los que se presentó 
en la sección 5.4 con el fin de encontrar un intervalo de confianza para la diferencia entre las 
dos probabilidades de éxito. Se presenta un ejemplo para explicarlo. 

Dieciocho de 60 camiones ligeros producidos en la línea de montaje A tenían un defec- 
to en el mecanismo de dirección, que se tenían que reparar antes de enviarlos. Solamente 16 
camiones de los 90 producidos en la línea de montaje B tenían este defecto. Suponga que es- 
tos camiones se pueden considerar como dos muestras aleatorias simples independientes de los 
camiones fabricados en las dos líneas de montaje. Se desea determinar un intervalo de confian- 
za de 95% para la diferencia entre las proporciones de camiones con este defecto en las dos lí- 
neas de montaje. 

Ésta es una situación en la que se tendría que tener cuidado de asegurarse de que es ra- 
zonable considerar que los datos sean muestras aleatorias simples. Elegir camiones secuen- 
cialmente de la línea no podría ser una buena idea, por ejemplo, si hay fluctuaciones 
sistemáticas en la calidad en el tiempo. Se supondrá que el muestreo se ha hecho con un pro- 
cedimiento bien planeado y adecuado. 

Para construir el intervalo de confianza se procede en forma similar a la de la sección 
5.4, al sustituir a las medias con las proporciones. Sea py la proporción de camiones en la po- 
blación de la línea A que tenían el defecto, y sea py la proporción correspondiente de la línea 
B. Los valores de pz y py son desconocidos. Se desea encontrar un intervalo de confianza de 
95% para px — Py. 

Sea X el número de camiones en la muestra de la línea A que tenía defectos y sea Y 
el número correspondiente de la línea B. Entonces X es una variable aleatoria binomial con 
nx = 60 ensayos y probabilidad de éxito px, y Y es una variable aleatoria binomial con ny = 
90 ensayos y probabilidad de éxito py. Las proporciones muestrales son Py y Py. En este ejem- 
plo los valores observados son X = 18, Y = 16, px = 18/60 y py = 16/90. En virtud de que 
los tamaños muestrales son grandes, se tiene por el teorema del límite central que Py y Py es- 
tán ambas distribuidas aproximadamente en forma normal con medias px y py y desviaciones 
estándares 05, = V/px(1— px)/nx y 0p, = VprU — py)/ny. Por consecuencia, la dife- 
rencia Py — Py tiene una distribución normal con media py — py y desviación estándar 
VPx(U— px)/nx + pr( — py)/ny. Se concluye que para 95% de todas las muestras posi- 
bles, la diferencia pz — py satisface la siguiente desigualdad: 


2% a 1 — Dy (1 — 
Ta 190, PE Px) + pr(1 — py) 
nx Ny 


< Px — PY < 


En en 1— 1 — 
e pod 190, PE Px) me pr — pr) (5.17) 


nx Ny 


La expresión 5.17 no es un intervalo de confianza, ya que las cantidades expresadas como: 
Vpx(1— px)/nx + pr(1 — py)/ny dependen de los valores verdaderos desconocidos py y 
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Py. El punto de vista tradicional es sustituir py y py CON Px y Py, produciendo el intervalo de 
confianza Px — Py E Zan VPx(l —Px)/nx + Ppr( — Py) /ny. Investigaciones recientes han 
mostrado que este intervalo se puede mejorar modificando un poco a ny, ny, Px y Py. Simple- 
mente se suma 1 a cada uno de los números de éxitos de X y Y, y se suma 2 a cada uno de los 
números de ensayos ny y ny. Por lo que, se definen Ry = Nx + 2, Ny = Ny + 2, px = (X + 
D/nx y Py = (Y + D/ny,. El intervalo de confianza de 95% es Px — Py E Zan 
VPx( — Px)/nx + Pr (1 — pr)/ny. En este ejemplo, ix = 62, iy = 92, px = 19/62 = 
0.3065, y py = 17/92 = 0.1848. Por tanto, se obtiene 1.3065 — 0.848 + 0.1395, o (—0.0178, 
0.2612). 

Para obtener un intervalo de confianza de nivel 100(1 — ax) el intervalo de confianza, 
sustituya 1.96 con z¿y,. Aunque se justifica este intervalo de confianza usando el teorema del 
límite central, que supone que ny y ny son grandes, se ha encontrado que este método da bue- 
nos resultados para casi todos los tamaños muestrales. 


Sea X el número de éxitos en ny ensayos de Bernoulli independientes con probabilidad 
de éxito px, y sea Y el número de éxitos en ny ensayos de Bernoulli independientes 
con probabilidad de éxito py, tal que X — Bin(nx, px) y Y — Bin(n,, py). Se define 
Ax = Mx + 2,ny=My+2,px=(X + 1)/nx y Py = (Y + D)/ny. 

Entonces un intervalo de confianza de nivel 100(1 — ()% para la diferencia 
Px — Py€sS 


po a Px(l—p Dpyr(l—Dp 
ha Pret px), pro. pr) (5.18) 


nx NY 


Si el límite inferior del intervalo de confianza es menor que — 1, sustituya éste con —1. 


Si el límite superior del intervalo de confianza es mayor que 1, sustituya éste con 1. 


El ajuste que aquí se ha descrito para el intervalo de confianza de dos muestras es simi- 
lar al que se describió en la sección 5.2 para el intervalo de confianza de una muestra. En am- 
bas casos, se ha agregado un total de dos éxitos y cuatro ensayos. Para el caso de dos 
muestras, éstos se han dividido entre las muestras, así que se ha agregado un éxito y dos en- 
sayos a cada muestra. Para el caso de una muestra, se han agregado dos éxitos y cuatro ensa- 
yos a una muestra. El intervalo de confianza dado por la expresión (5.18) puede ser llamado 
intervalo de Agresti-Caffo, después de que lo desarrollaran Alan Agresti y Brian Caffo. Para 
mayor información acerca de este intervalo de confianza consulte el artículo “Simple and Ef- 
fective Confidence Intervals for Proportions and Differences of Proportions Result from Ad- 
ding Two Successes and Two Failures” (A. Agresti y B. Caffo, en The American Statistician, 
2000:280-288). 


Los métodos para calcular la fuerza y requerimientos de la dureza deben ser conservadores, 
de tal forma que deben sobreestimar en vez de subestimar. La tasa de éxitos de este método 
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se puede medir con la probabilidad de una sobreestimación. El artículo “Discrete Bracing 
Analysis for Light-Frame Wood-Truss Compression Webs” (M. Waltz, T. McLain y cols., en 
Journal of Structural Engineering, 2000:1086-1093) presenta los resultados de un experimen- 
to que se evaluó con un método usual (el método de Plaut) para calcular la fuerza de soporte 
para una red de soportes de compresión. En una muestra de 380 columnas cortas de prueba 
(cuatro a seis pies en longitud), el método sobreestimó la fuerza para 304 de ellas, y en una 
muestra de 394 columnas largas de prueba (ocho a diez pies en longitud), el método sobrees- 
timó la fuerza para 360 de ellas. Determine un intervalo de confianza de 95% para la diferen- 
cia entre las tasas de éxito para columnas largas y columnas cortas. 


Solución 

El número de éxitos en la muestra de columnas cortas es X = 304 y el número de éxitos en 
la muestra de columnas largas es Y = 360. Los números de ensayos son nz = 380 y ny = 394. 
Se calcula 1; = 382, ny = 396, px = (304 + 1)/382 = 0.7984, y py = (360 + 1)/396 = 
0.9116. El valor de z¿, es 1.96. El intervalo de confianza de 95% es 0.9116 — 0.7984 + 1.96 
1 0.7984)(0.2016)/382 + (0.9116)(0.0884)/396, o 0.1132 + 0.0490. 


El método tradicional 


Muchas personas usan el método tradicional para calcular intervalos de confianza para la di- 
ferencia entre proporciones. Este método utiliza las proporciones muestrales Px y Py y los ta- 
maños muestrales verdaderos nx y ny. El método tradicional da los resultados muy similares 
a los del método moderno que se acaba de describir para tamaños muestrales grandes o mo- 
deradamente grandes. Para tamaños muestrales pequeños, sin embargo, el intervalo de con- 
fianza tradicional falla para lograr que contenga la probabilidad; en otras palabras, el intervalo 
de confianza de nivel 100(1 — 0%)% calculado por el método tradicional contiene el valor ver- 
dadero menos del 100(1 — 0% de las veces. 


El método tradicional para calcular los intervalos de confianza para la di- 
ferencia entre proporciones (ampliamente usado pero no recomendado) 
Sea Px la proporción de éxitos en un número grande ny de ensayos de Bernoulli inde- 
pendientes con probabilidad de éxito px, y sea Py la proporción de éxitos en un núme- 
ro grande ny de ensayos de Bernoulli independientes con probabilidad de éxito py. En- 
tonces el intervalo de confianza de nivel 100(1 — ()% tradicional para px — py es 


Mi - PxU —p Dr(l — Py) 
pd La [2 Pz), Pr Py (5.19) 
nx Ny 


Este método no se puede utilizar a menos que ambas muestras contengan al menos 
diez éxitos y diez fracasos. 
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Ejercicio para la sección 5.5 


1. 


y 


> 


En una prueba del efecto de la humedad en conexiones eléc- 
tricas, se probaron 100 conexiones eléctricas bajo condiciones 
húmedas y 150 en condiciones secas. Veinte de las primeras 
fallaron y sólo diez de las segundas no pasaron la prueba. 
Determine un intervalo de confianza de 90% para la dife- 
rencia entre las proporciones de las conexiones que falla- 
ron, húmedas y secas. 


La especificación para la resistencia de tensión de un alam- 
bre que conecta un circuito integrado a su marco es de 10 g 
o más. En una muestra de 85 unidades hechas con alambres 
de oro, 68 satisfacen la especificación, y en una muestra de 
120 unidades elaboradas con alambres de aluminio, 105 
cumplen el requerimiento. Determine un intervalo de con- 
fianza de 95% para la diferencia en las proporciones de uni- 
dades que satisfacen las especificaciones entre unidades con 
alambre de oro y aquellas con alambre de aluminio. 


En una muestra aleatoria de 340 automóviles conducidos en 
altitudes bajas, 46 produjeron más de 10 g de contaminación 
de masa particulada por galón de combustible consumido. 
En una muestra aleatoria de 85 automóviles conducidos en 
altitudes altas, 21 contaminaron en las mismas circunstan- 
cias. Determine un intervalo de confianza de 98% para la 
diferencia entre las proporciones para vehículos a alta y ba- 
ja altitudes. 


De 1 200 piezas de grava de una planta, 110 piezas se clasifi- 
caron como “grandes”. De 900 piezas de otra planta, 95 tam- 
bién lo fueron. Determine un intervalo de confianza de 99% 
para la diferencia entre las proporciones de piezas de grava 
grandes producidas en las dos plantas. 


Se comparan dos procesos para fabricar cierto microchip. Se 
seleccionó una muestra de 400 chips de un proceso menos 
costoso, donde 62 estaban defectuosos. Se seleccionó una 
muestra de 100 chips de un proceso más costoso, pero 12 
tenían defecto. 


a) Determine un intervalo de confianza de 95% para la di- 
ferencia entre las proporciones de los chips defectuosos 
producidos por los dos procesos. 


b) Con la finalidad de aumentar la precisión del intervalo 
de confianza, se muestrearon más chips. Se están consi- 
derando tres planes de muestreo de igual costo. En el 
primer plan se probarán 100 chips más del proceso me- 
nos costoso. En el segundo se observaron 50 más del 
proceso más costoso. En el tercer plan se probaron 50 
del menos costoso y 25 del más costoso. ¿Qué plan es 


6. 


10. 


más probable que proporcione el aumento más grande 
en la precisión del intervalo de confianza? Explique. 


El artículo “Occurrence and Distribution of Ammonium in 
lowa Groundwater” (K. Schilling, en Water Environment 
Research, 2002:177-186) describe mediciones de concen- 
traciones de amonio (en mg/l) en gran número de pozos en 
lowa. Éstos incluían 349 pozos aluviales y 143 cuaterna- 
rios. De los primeros, 182 tenían concentraciones arriba de 
0.1, y 112 de los segundos tenían concentraciones superio- 
res a 0.1. Determine un intervalo de confianza de 95% para 
la diferencia entre las proporciones de dos tipos de pozos 
con concentraciones arriba de 0.1. 


El artículo referido en el ejercicio 9 en la sección 5.2 des- 
cribe un experimento en el que 42 muestras de lixiviado 
fueron probadas para la presencia de algunos contaminan- 
tes, donde 26 contenían niveles detectables de plomo y 32 
de cromo. ¿Es posible utilizar los métodos de esta sección 
para encontrar un intervalo de confianza de 95% para la di- 
ferencia entre la probabilidad de que una muestra contendrá 
alguna cantidad detectable de plomo y cromo? Si es así, en- 
cuentre el intervalo de confianza. Si no, explique. 


El artículo “Case Study Based Instruction of DOE and 
SPC” (J. Brady y T. Allen, en The American Statistician, 
2002:312-315) describe un esfuerzo de un equipo de inge- 
niería para reducir la tasa de defectos en la fabricación de un 
tablero específico de circuitos impresos. El equipo determi- 
nó reconfigurar el pozo de calor del transistor. Se fabricaron 
1 500 tableros a la semana antes de que se implementara la 
reconfiguración, y 345 de éstos estaban defectuosos. Asi- 
mismo, se hicieron 1 500 tableros una semana después de la 
reconfiguración, y 195 de éstos tenían defectos. Determine 
un intervalo de confianza de 95% para el decrecimiento de 
la tasa de defectos después de la reconfiguración. 


Compras repetidas es una buena medida de la satisfacción 
del cliente. Al final de año, un distribuidor de suministros 
de computadora extrajo una muestra de 120 cuentas y en- 
contró que 56 habían ordenado un pedido más de una vez. 
Después lo hizo con 80 cuentas del año anterior, de éstas 30 
habían ordenado un pedido más de una vez. Encuentre un 
intervalo de confianza de 95% para la diferencia entre las 
dos proporciones de clientes que ordenaron más de una vez. 


El artículo “Accidents on Suburban Highways-Tennessee's 
Experience” (R. Margiotta y A. Chatterjee, en Journal of 
Transportation Engineering, 1995:255-261) compara tasas 
de accidentes de tránsito en intersecciones con medianas 


11. 


5.6 


5.6 Intervalos de confianza para la diferencia entre dos medias con pequeñas muestras 339 


elevadas con tasas en intersecciones con doble sentido y 
vuelta a la izquierda. De 4 644 accidentes en el primer tipo 
de intersecciones, 2 280 eran en la parte trasera, y de 4 584 
accidentes del segundo tipo, 1 982 presentaban esta última 
condición. Suponiendo que éstas sean muestras aleatorias 
de accidentes de dos tipos de intersecciones, determine un 
intervalo de confianza de 90% para la diferencia entre las 
proporciones de accidentes que son del tipo de parte trase- 
ra en los dos tipos de intersecciones. 


En cierto año, había 80 días con nevadas medibles en Den- 
ver, y 63 días en Chicago. Un meteorólogo calcula (80 + 


1)/(365 + 2) = 0.22, (63 + 1)/(365 + 2) = 0.17, y propo- 
ne calcular un intervalo de confianza de 95% para la dife- 
rencia entre las proporciones de días que nieva en las dos 
ciudades; así: 


(0.22)(0.78)  (0.17)(0.83) 
0.22 0:17: < 1964) 367 J 367 


¿Es éste un intervalo de confianza válido? Explique. 


Intervalos de confianza para la diferencia 


entre dos medias con pequeñas muestras 


La distribución £ de Student se puede utilizar en algunos casos donde las muestras son peque- 
ñas y, por tanto, donde no es aplicable el teorema del límite central. Se presenta un ejemplo. 

Una muestra de seis soldaduras de un tipo tenía promedio de prueba final de resisten- 
cia (en ksi) de 83.2 y desviación estándar de 5.2, y una muestra de diez soldaduras de otro ti- 
po tenía resistencia promedio de 71.3 y desviación estándar de 3.1. Suponga que ambos 
conjuntos de soldaduras son muestras aleatorias de poblaciones normales. Se desea encontrar 
un intervalo de confianza de 95% para la diferencia entre las medias de las resistencias de los 
dos tipos de soldaduras. 

Ambos tamaños muestrales son pequeños, por lo que no es aplicable el teorema del lí- 
mite central. Si ambas poblaciones son normales, la distribución £ de Student se puede utilizar 
para calcular un intervalo de confianza para la diferencia entre las dos medias poblacionales. 
El método es similar al que se presenta en la sección 5.4 para el caso donde las muestras son 
grandes, excepto que el puntaje z se sustituye con un valor de la distribución f de Student. 

SX...., Ax es una muestra de tamaño ny de una población normal con media uy y 
Y,,..., Y,, es una muestra de tamaño ny de una población normal con media y, entonces la 


Ny 
cantidad 


(X — Y) — (ux — My) 


1/s+/nx +s5i/ny 


tiene una aproximada distribución £ de Student. 
El número de grados de libertad a usar para esta distribución está dado por 


2 
(dd) 
== e E 5 redondeado hacia abajo al entero más cercano. (5.20) 
(s/n x) (s7/ny) 


nx=1 ny=1 
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En este ejemplo, sea X;,...., X¿ de las seis soldaduras del primer tipo y sea Y, ..., Yi 
las diez soldaduras del segundo tipo. Sustituyendo sx = 5.2, sy = 3.1, nx = 6, ny= 10 en la 
ecuación (5.20) se obtiene 


5.22 7 Y 
6 10 " 
= 5 LG =7.18%7 
(5.22/6)?  (3.12/10) 
5 "7 


v 


Si ambas poblaciones son normales, entonces la cantidad 


[(X — Y) — (ux — uy1/y sh/6 + 57/10 


tiene una distribución aproximada £ de Student con siete grados de libertad. La figura 5.14 
presenta esta distribución. El 95% del área bajo la curva está contenida entre los valores £ = 
2.365 y £ = 2.365. En consecuencia 95% de todas las muestras que se puede haber elegido, 


ls 
2365 </ ) 7 (Mx 41) 2 365 


1/5%/6 + 57/10 


] 
2.365 0 2.365 


FIGURA 5.14 La distribución £ de Student con siete grados de libertad. El 95% del área 
está entre £ = —2.365 y £ = 2.365. 


Mediante el razonamiento utilizado en la sección 5.3, un intervalo de confianza de 95% para 
la diferencia uy — uy es X — Y + 2.365 ys; /6 + 7/10. Al sustituir X = 83.2, Y = 71.3, 
sx = 5.2 y sy = 3.1, se encuentra que un intervalo de confianza de 95% para uz — pyes 11.9 
+ 5.53, o (6.37, 17.43). 

En general, para producir un intervalo de confianza de 100(1 — 0)%, sea t,, ¿y, el cuan- 
til 1 — q/2 de la distribución f de Student con v grados de libertad, éste es el valor que corta 
un área de (2 en la cola del lado derecho. Por ejemplo, antes se encontró que t; 9.075 = 2.365. 
Después un intervalo de confianza de nivel 100(1 — 0% para la diferencia entre las medias 
poblacionales ux — uy, cuando los tamaños muestrales son ny y ny, respectivamente, X — Y 


9 2 
E tran VSx/nx +sp/ny. 
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Sea X,..., X,y una muestra aleatoria de tamaño ny de una población normal con me- 


dia uy, y Y¡, .. ., Y, y una muestra aleatoria de tamaño ny de una población normal con 
media uy. Suponga que las dos muestras son independientes. 


Si las poblaciones no necesariamente tienen la misma varianza, un intervalo de con- 
fianza de nivel 100(1 — 0)% para Uux — My es 


E 5? ? 
X-—Yitep) + (5.21) 
nx Ny 


El número de grados de libertad, v, está dado por 


2 232 
Ss Ss 

XxX Y 
X=+—= 
Nx Ny 


v= redondeado hacia abajo al entero más cercano. 
(sz /nx)? ñ (s7/ny) 
MX. == 1 Ry = 1 


Los compuestos con base de resina se usan en odontología restauradora. El artículo “Reduc- 
tion of Polymerization Shrinkage Stress and Marginal Leakage Using Soft-Start Polymeriza- 
tion” (C. Ernst, N. Brand y colaboradores, en Journal of Esthetic and Restorative Dentistry, 
2003:93-104) presenta una comparación de la dureza de la superficie de las muestras curadas 
durante 40 segundos con fuerza constante con otra de 40 segundos con la fuerza aumentando 
en forma exponencial. Quince muestras fueron curadas con cada método. Las curadas con 
fuerza constante tuvieron promedio de dureza de superficie (en N/mm?) de 400.9 con desvia- 
ción estándar de 10.6. Las curadas con fuerza que aumenta exponencialmente tenían una du- 
reza de superficie promedio de 367.2 con desviación estándar de 6.1. Determine un intervalo 
de confianza de 98% para la diferencia en las medias de la dureza entre las muestras curadas 
por los dos métodos. 


Solución 
Se tiene X = 400.9, sy = 10.6, nz = 15, Y = 367.2, sy = 6.1 y ny = 15. El número de gra- 
dos de libertad está dado por la ecuación (5.20) como 


ES me | 
is ea E + =22.36 22 
(10.62/15)%  (6.12/15) 
151 15-1 


De la tabla £ (tabla A.3 en el Apéndice A) se encuentra que £2, 0.01 = 2.508. Se utiliza la ex- 
presión (5.21) para encontrar que el intervalo de confianza de 98% es 


400.9 — 367.2 + 2.508//10.62/15 + 6.12/15, 0 33.7+ 7.9. 
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Cuando las poblaciones tienen varianzas iguales 


Ocasionalmente se presenta una situación en la que se sabe que dos poblaciones tienen va- 
rianzas casi iguales. En estos casos un método que explota este hecho se puede utilizar para 
producir intervalos de confianza que son más angostos que los producidos por el método más 
general descrito antes. Al igual que con el método más general, ambas poblaciones deben ser 
aproximadamente normales. Se presenta un ejemplo. 

Dos pesas usuales, cada una etiquetada con 100 g, son pesadas varias veces en la mis- 
ma balanza. La primera se pesa durante ocho veces, y la media de la lectura de la balanza es 
18.2 ug arriba de 100 g, con desviación estándar de 2.0 ug. La segunda se pesa en 18 ocasio- 
nes y la media de las lecturas es 16.4 g arriba de 100 g, con desviación estándar de 1.8 ug. 
Suponga que cada conjunto de lecturas es una muestra de una población aproximadamente 
normal. Debido a que se usa la misma balanza para todas las mediciones, y dado que los pe- 
sos verdaderos son aproximadamente iguales, es razonable suponer que las desviaciones es- 
tándares poblacionales de las lecturas son las mismas para ambas pesas. Se supone que las 
mediciones no están sesgadas (es, en realidad, suficiente suponer que el sesgamiento es el 
mismo para ambas pesas). Se desea encontrar un intervalo de confianza de 95% para la dife- 
rencia entre los pesos verdaderos. 

Sean X¡, .. ., Xg las lecturas para la primera pesa, y Y,,..., Y¡g las lecturas para la se- 
gunda. Sean uz y uy los pesos verdaderos, que son las medias de las poblaciones de las cuales 
se extrajeron estas muestras. Se supone que ambas poblaciones siguen distribuciones normales 
con la misma varianza o”. Por tanto, X tiene una distribución normal con media px y varianza 

0718, y Y tiene una distribución normal con media uy y varianza 07/18. Por tanto, la diferencia 
X-— Ed tiene una distribución normal con media uy — My y la varianza O 2(1/8 + 1/18). Dado 
que 9” no se conoce, se debe estimar. Se podría estimar esta cantidad utilizando cualesquie- 
ra de las varianzas muestrales s? = o —X/(8-D 05? =3% (Y, -Y?/(18-1. 
Pero la mejor estimación se obtiene al Soria la información en ambas muestras. La me- 
jor E EINACIOn es la varianza combinada s; = E + 1757 + 17) La varianza combina- 
da ó es un promedio ponderado de dos afbazas muestrales. Los pesos son iguales a los 
tamalos muestrales menos uno. Es lógico utilizar un promedio ponderado con el propósito de 
que la varianza muestral basada en la muestra más Esos cuente más. Con los valores dados 
para sy y Sy, el valor de la varianza combinada es s = [72.0% + 174.8)/0 + 17) = 
3.4617, así s, = 1.8606. 

La cantidad [(X — Y) — (ux — my)1/ (sp 1/8 + 1/18) tiene la distribución f de Stu- 
dent con 8 + 18 — 2 = 24 grados de libertad. De la tabla £, se encuentra que £24 0.025 = 2.064. 
Por lo que para 95% de todas las muestras que se puede haber elegido, 


(X — Y) — (ux — uy) 
2.064 2.064 
E IE + 1/18  * 


Por el razonamiento utilizado en la sección 5.3, un intervalo de confianza de 95% para Ux — My 
es X — Y + 2.0645, /1/8 + 1/18. Al sustituir X = 18.2, Y = 16.4 y s, = 1.8606 encuentra 
un intervalo de confianza de 95% para 4ux — myes 1.8 + 1.6318, o (0.1682, 3.4318). 
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Sea X¡,..., Xx una muestra aleatoria de tamaño ny de una población normal con me- 
dia Ux y Y¡,..., Y, y una muestra aleatoria de tamaño ny de una población normal con 
media uy. Se supone que las dos muestras son independientes. 


Si se sabe que las poblaciones tienen casi la misma varianza, un intervalo de con- 
fianza de nivel 100(1 — 0% para Ux — My es 


a 1 1 
X—Y T tnziny-2,0/2 * Sp . + (5.22) 
X Y 


La cantidad Ca es la varianza combinada, dada por 


2 (nx — A + (ny — 1 
Ss, = 


(5.23) 
Nx +nNy — 2 


Se utilizó una máquina para llenar botellas de plástico con blanqueador. Una muestra de 18 
botellas tenía una media de volumen de llenado de 2.007 1 y desviación estándar de 0.010 1. 
Después el aparato se cambió de lugar a otra ubicación. Una muestra de diez botellas llena- 
das en la nueva ubicación tenía una media del volumen llenado de 2.001 1 y desviación están- 
dar de 0.012 1. Se creía que cambiar de lugar la máquina podría haber cambiado la media del 
volumen llenado, pero es poco probable haber cambiado la desviación estándar. Suponga que 
ambas muestras provienen de poblaciones aproximadamente normales. Determine un interva- 
lo de confianza de 99% para la diferencia entre la media de los volúmenes de llenado en las 
dos ubicaciones. 


Solución 

Se tiene X = 2.007, sy = 0.010, ny = 18, Y = 2.001, sy = 0.012 y ny = 10. Debido a que se 
cree que las desviaciones estándares poblacionales son iguales, se estima su valor común con 
la desviación estándar combinada, utilizando la ecuación (5.23). Se obtiene 


= 0.0107 


(18 — 1)(0.0102) + (10 — 1)(0.0122) 
Ni 
y 18+ 10-2 
El número de grados de libertad es 18 + 10 — 2 = 26. Se utiliza la expresión (5.22) para de- 


terminar el intervalo de confianza de 99%. Consultando la tabla £ con 26 grados de libertad, 
se encuentra que fs, 0.005 = 2.779. El intervalo de confianza de 99% es, por tanto, 


2.007 — 2.001 + 2.779(0.0107)-/1/18 + 1/10, 0 0.006 + 0.012. 


No suponga que las varianzas poblacionales son exactamente 
iguales sólo porque las varianzas muestrales están cercanas 


El intervalo de confianza dado por la expresión (5.22) requiere que las varianzas poblaciona- 
les sean iguales, o casi iguales. En situaciones donde las varianzas muestrales son casi igua- 
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les, es tentador suponer que las varianzas poblacionales son también casi iguales. Sin embar- 
go, cuando los tamaños muestrales son pequeños, las varianzas muestrales no son necesaria- 
mente buenas aproximaciones a las varianzas poblacionales. Por tanto, es posible que las 
varianzas muestrales estén cercanas incluso cuando las varianzas poblacionales estén bastante 
alejadas. En general, se debe suponer que las varianzas poblacionales son iguales solamente 
cuando se tiene conocimiento acerca de los procesos que produjeron los datos que justifiquen 
esta suposición. 

El intervalo de confianza dado por la expresión (5.21) produce buenos resultados en ca- 
si todos los casos, si las varianzas poblacionales son iguales o no. (Puede haber excepciones 
cuando las muestras son de tamaños muy diferentes.) Por tanto, cuando se duda acerca de si 
las varianzas poblacionales son iguales, utilice la expresión (5.21). 


Ejercicios para la sección 5.6 


1. Se midió cinco veces el contenido de carbono (en partes por 


tón, el porcentaje promedio de células que sobrevivían era 


millón) para cada una de las dos placas de silicio diferentes. 
Las mediciones fueron: 


Placa A: 1.10 1.15 1.16 1.10 1.14 
Placa B: 1.20 1.18 1.16 1.18 1.15 


Determine un intervalo de confianza de 99% para la dife- 
rencia en contenido de carbono entre las dos placas. 


. En un estudio de la tasa en donde el pesticida hexaconazol 
es absorbido a través de piel, se expusieron muestras de piel 
a 24 ug de hexaconazol. Se expusieron cuatro muestras du- 
rante 30 minutos y otras cuatro fueron expuestas durante 60 
minutos. Las cantidades (en ug) que fueron absorbidas fueron 


30 minutos: 3.1 33 3.4 3.0 
60 minutos: 3.7 3.6 3.7 3.4 


Determine un intervalo de confianza de 95% para la media 
de la cantidad absorbida en el intervalo entre 30 y 60 minu- 
tos después de la exposición. 


. El artículo “Differences in Susceptibilities of Different Cell 
Lines to Bilirubin Damage” (K. Ngai, C. Yeung. y C. 
Leung, en Journal of Pediatric Child Health, 2000:36-45) 
describe una investigación respecto de la toxicidad de bili- 
rrubina sobre algunas líneas de células. Diez conjuntos de 
células de hígado humanos y diez conjuntos de células de 
fibroblastos de ratón fueron puestos en soluciones de bili- 
rrubina en albúmina a una proporción de 1.4 bilirrubina/al- 
búmina molar durante 24 horas. En los diez conjuntos de 
celdas de hígado humanas, el porcentaje promedio de célu- 
las que sobrevivían era de 53.9 con desviación estándar de 
10.7. En los diez conjuntos de celdas de fibroblastos de ra- 


de 73.1 con desviación estándar de 9.1. Determine un inter- 
valo de confianza de 98% para la diferencia de porcentajes 
de superviviencia entre las dos líneas de células. 


. Un médico genetista está estudiando la frecuencia de cierta 


mutación genética en hombres de diferentes edades. Para 
diez hombres de 20-29 años, la media del número de se- 
cuencias mutantes por ug de ADN era 47.2 y la desviación 
estándar 15.1. Para 12 hombres de 60-69 años la media era 
109.5 y la desviación estándar 31.2. Determine un interva- 
lo de confianza de 99% para la diferencia en la media de la 
frecuencia mutante entre hombres de 20-29 años y otros de 
60-69. 


. Durante el verano de 1999 los bombardeos destruyeron mu- 


chas instalaciones de almacenamiento de combustible en 
Serbia. Por consiguiente, importantes cantidades de produc- 
tos de aceite fueron derramadas y quemadas, dando como 
resultado contaminación del suelo. El artículo “Mobility of 
Heavy Metals Originating from Bombing of Industrial Si- 
tes” (B. Skrbi6, J. Novakovié, y N. Miljevié, en Journal of 
Environmental Science and Health, 2002:7-16) notifica medi- 
ciones de concentraciones de metal pesado en algunos sitios 
industriales en junio de 1999, justo después del bombardeo, 
y nuevamente en marzo de 2000. En el sitio de Smederevo, 
en la rivera del Danubio, se tomaron ocho muestras de tie- 
rra en 1999, que tenían una concentración promedio de plo- 
mo (en mg/kg) de 10.7 con una desviación estándar de 3.3. 
Cuatro muestras tomadas en 2000 tuvieron una concentra- 
ción promedio de plomo de 33.8 con desviación estándar de 
0.50. Determine un intervalo de confianza de 95% para el 
aumento en la concentración de plomo entre junio de 1999 
y marzo de 2000. 


5.6 


6. El artículo “Quality of the Fire Clay Coal Bed. Southeastern 


Kentuchy” (J. Hower, W. Andrews y cols., en Journal of 
Coal Quality, 1994:13-26) contiene mediciones acerca de 
muestras de carbón en algunos condados de Kentucky. En 
unidades de porcentajes de ceniza, cinco muestras del con- 
dado de Knott tenían un promedio de dióxido de aluminio 
(AlO)) de 32.17 y desviación estándar de 2.23. Seis mues- 
tras de condado de Leslie tenían un promedio de contenido 
de AlO, de 26.48 y desviación estándar de 2.02. Determine 
un intervalo de confianza de 98% para la diferencia en el 
contenido de AlO, contenido entre las muestras de carbón 
de los dos condados. 


. El artículo “The Frequency Distribution of Daily Global 
Irradiation at Kumasi” (F. Akuffo y A. Brew-Hammond, en 
Solar Energy, 1993:145-154) define el índice de claridad 
diaria para una ubicación que está en la proporción de irra- 
diación global con la irradiación extraterrestre. Se tomó me- 
diciones en la ciudad de Ibadan, Nigeria, en un periodo de 
cinco años. Para cinco meses de mayo, el promedio del ín- 
dice de claridad era de 0.498 y tenía 0.036 de desviación es- 
tándar. Durante cinco meses de julio, el promedio era de 
0.389 y la desviación estándar de 0.049. Encuentre un inter- 
valo de confianza de 95% para la diferencia entre las me- 
dias de los índices de claridad de mayo y julio. 


. Se probaron algunas muestras de carbón de cada una de dos 
minas, y se midió la capacidad calorífica (en kilocalorías 
por libra) para cada muestra. Los resultados fueron: 


Intervalos de confianza para la diferencia entre dos medias con pequeñas muestras 
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10. El artículo “Permeability, Diffusion and Solubility of Ga- 


11. 


ses” (B. Flaconnéche y colaboradores, en Oil and Gas 
Science and Technology, 2001:262-278) describe un estudio 
del efecto de la temperatura y otros factores en los coefi- 
cientes de transporte de gas en polímeros semicristalinos. El 
coeficiente de permeabilidad (en 107% (STP)/cm-s-MPa) de 
CO, fue medido para la densidad media extrudida de polie- 
tileno tanto a 60%C como 61*C. Los resultados fueron: 


60%C: 54 51 61 
60 63 62 
61%C: 58 60 66 66 68 61 60 


67 57 69 60 


Determine un intervalo de confianza de 95% para la dife- 
rencia en el coeficiente de permeabilidad entre 60%C y 
61*C. 


Una administradora de sistemas computacionales observa 
que las computadoras que corren en un sistema operativo 
especial parecen paralizarse más a menudo conforme pasa 
el tiempo desde la instalación del sistema operativo. Ella 
mide el tiempo (en minutos) antes de que se paralice para 
siete computadoras un mes después de la instalación, y pa- 
ra nueve computadoras siete meses después. Los resultados 
fueron: 


207.4 233.1 215.9 
235.1 225.6 244.4 
245.3 

84.3 53.2 127.3 
201.3 174.2 246.2 


Un mes después de la instalación: 


Siete meses después de la instalación: 


Mina l: 4167 4268 4159 4285 4229 149.4 156.4 103.3 
4386 4103 

Mina2: 3924 30988 409% 4026 Determine un intervalo de confianza de 95% para la dife- 
4235 4178 rencia de las medias en el tiempo en que se paraliza entre el 


Determine un intervalo de confianza de 90% para la dife- 
rencia en la capacidad calorífica entre carbón de la mina 1 
y carbón de la mina 2. 


. La fuerza de ruptura de palos de hockey de dos compuestos 
de grafito-Kevlar diferentes producen los siguientes resulta- 
dos (en newtons): 


12. 


primero y el séptimo meses. 


En el artículo “Bactericidal Properties of Flat Surfaces and 
Nanoparticles Derivatized with Alkylated Polyethylenimi- 
nes” (J. Lin, S. Qiu y colaboradores, en Biotechnology Pro- 
gress, 2002:1082-1086), se describen experimentos en los 
que se fijó polietileniminas alquiladas a superficies y a na- 
nopartículas para hacerlas bactericidas. En una serie de ex- 
perimentos, la eficiencia bactericida contra la bacteria E. 


Compuesto A: 487.3 444.5 467.7 456.3 449.7 coli fue comparada para un metilado contra un polímero no 
459.2 478.9 461.5 477.2 metilado. La media del porcentaje de células de bacterias 
Compuesto B: 488.5 501.2 475.3 467.2 462.5 muertas con el polímero metilado era de 95 con una desvia- 
499.7 470.0 4695 481.5 485.2 ción estándar de 1, y la media del porcentaje de células de 
509.3 4793 478.3 491.5 bacterias muertas con el polímero no metilado era de 70 con 


una desviación estándar 6. Suponga que se hizo cinco me- 


Determine un intervalo de confianza de 98% para la diferencia 
entre las medias de la fuerza de ruptura de palos de hockey he- 
chos de los dos materiales. 


diciones independientes en cada tipo de polímero. Determi- 
ne un intervalo de confianza de 95% para el aumento en la 
eficiencia bactericida del polímero metilado. 
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13. Una muestra de ocho acondicionadores de aire para habita- nido de 46 decibeles y desviación estándar de 2 decibeles. 
ción de cierto modelo tenía una media de presión de sonido Determine un intervalo de confianza de 98% para la diferen- 
de media de 52 decibeles (dB) y una desviación estándar de cia en las medias de presión de sonido entre los dos modelos. 


cinco decibeles, y una muestra de 12 acondicionadores de ai- 
re de un modelo diferente tenía una media de presión de so- 


5.7 


Intervalos de confianza con datos apareados 


Los métodos analizados hasta ahora para encontrar intervalos de confianza con base en dos 
muestras han requerido que las muestras sean independientes. En algunos casos, es mejor di- 
señar un experimento con el propósito de que cada elemento en una muestra se empareje con 
un elemento en la otra. A continuación se muestra un ejemplo. 

Un fabricante de neumáticos desea comparar el desgaste de la huella de los neumáticos 
hechos de un nuevo material con el de los neumáticos de un material convencional. Un neu- 
mático de cada tipo se coloca en cada rueda delantera de cada uno de diez automóviles de uni- 
dad de disco de rueda delantera. La elección respecto a qué tipo de neumático va en la rueda de- 
recha y cuál en la izquierda se hace lanzando al aire una moneda. Cada automóvil se condu- 
ce durante 40 000 millas, entonces se quita los neumáticos y se mide la profundidad de la hue- 
lla de cada uno. En la figura 5.15 se presenta los resultados. 


6.5 + | Xx Material nuevo 
O Material viejo E a 

2% L x > 
E 6 
g x a 
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FIGURA 5.15 Profundidad de la huella para diez pares de neumáticos. 


La columna del lado derecho de la figura 5.15 presenta los resultados para los 20 neu- 
máticos. Hay coincidencia considerable en el desgaste de la huella para las dos muestras. Es 
difícil decir de la columna si hay una diferencia entre las clases vieja y nueva de neumático. 
Sin embargo, cuando los datos se revisan en pares, está claro que, en general, los neumáticos 
del nuevo tipo tienen más huella que los de la vieja clase. La razón de analizar los pares es 
presentar un esquema más claro del resultado, que los automóviles varían mucho en cuanto 
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al desgaste que tienen. Automóviles pesados, y los que tienen patrones de manejo que impli- 
can muchos arranques y paradas, generalmente producen más desgaste que otros. Los datos 
agregados en la columna de la derecha de la figura incluyen esta variabilidad entre los auto- 
móviles, así como variabilidad en el desgaste de las llantas. Cuando los datos se consideran 
en pares, la variabilidad entre los automóviles desaparece, porque ambas llantas en un par 
provienen del mismo automóvil. 

La tabla 5.1 presenta, para cada automóvil, las profundidades de las huellas, así como 
la diferencia entre ellas. Se desea encontrar un intervalo de confianza de 95% para la media 
de la diferencia en el desgaste de la huella entre materiales viejos y nuevos en una forma que 
resulta ventajosa para reducir la variabilidad producida por el diseño apareado. La forma de 
hacer esto último es pensar en una población de pares de valores, en la cual cada par consis- 
te de mediciones de un tipo viejo y de un nuevo tipo de neumático en el mismo automóvil. 
Para cada par en la población, hay una diferencia (nuevo-viejo), por lo que hay una población 
de diferencias. Los datos constituyen, entonces, una muestra aleatoria poblacional de pares y 
sus diferencias representan una muestra aleatoria poblacional de diferencias. 


TABLA 5.1 Profundidades de la huella, en mm, para neumáticos hechos 
de materiales nuevos y viejos 


Automóvil 
1 2 3 4 5 6 7 8 9 10 


Material nuevo 4.35 5.00 4.21 5.003 5.71 4.61 470 6.03 3.80 4.70 
Material viejo 4.19 462 4.04 472 5.52 4.26 4.27 6.24 3.46 4,50 
Diferencia 0.16 0.38 0.17 0.31 0.19 035 043 -0.21 0.34 0.20 


Con el propósito de poner lo anterior en notación estadística, sea (X,, Y), ...., (X10, Y 10) 
los diez pares observados, con X; representando la huella del neumático hecho del nuevo ma- 
terial del ¡-ésimo automóvil y Y, representando la huella del neumático hecho del material vie- 
jo del ¡-ésimo automóvil. Sea D, = X; — Y; las diferencia entre las huellas para los neumáticos 
del ¡-ésimo automóvil. Sean ux y uy las medias poblacional para X y Y, respectivamente. Se 
desea encontrar un intervalo de confianza de 95% para la diferencia uy — My. Sea up la me- 
dia poblacional de diferencias. Entonces Uy = Mx — My. En consecuencia, un intervalo de 
confianza para up también será un intervalo de confianza para ux — My. 

Dado que la muestra D,,..., D¡y es una muestra aleatoria de una población con media 
Hp, es posible utilizar métodos para encontrar intervalos de confianza para up. En este ejem- 
plo, puesto que el tamaño muestral es pequeño, se usa el método £ de Student de la sección 
5.3. Los valores observados de la media muestral y la desviación estándar muestral son 


D=0.232  sp=0.183 


El tamaño muestral es diez, por lo que hay nueve grados de libertad. El valor adecuado 1 es 
to 0.025 = 2.262. Por tanto, con la expresión (5.9) (de la sección 5.3) el intervalo de confianza 
es 0.232 + (2.262)(0.183)//10, o (0.101, 0.363). Cuando el número de pares es grande, los 
métodos de grandes muestras de la sección 5.1, específicamente la expresión (5.1), se pueden 
utilizar. 
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Sea D;,,..., D, una muestra aleatoria pequeña (n <= 30) de diferencias de pares. Si la 
población de diferencias es aproximadamente normal, entonces un intervalo de confian- 
za de nivel 100(1 — 0% para la media de la diferencia ¡uy está dado por 


> Ny 
DE tara (5.24) 


Jn 


Observe que este intervalo es el mismo que el que se obtiene con la expresión (5.9). 


Si el tamaño muestral es grande, un intervalo de confianza de nivel 100(1 — 0)% 
para la media de la diferencia up está dado por 


D + Za/20p (5.25) 


En la práctica o se aproxima con s,/./n. Observe que este intervalo es el mismo que 
el que se obtiene con la expresión (5.1). 


Ejercicios para la sección 5.7 


1. El artículo “Simulation of the Hot Carbonate Process for 2. El artículo “Effect of Refrigeration on the Potassium Bitar- 


Removal of CO, and HS from Medium Btu Gas” (K. Park 
y T. Edgar, en Energy Progress, 1984:174-180) presenta 
una ecuación que utilizó para calcular la presión de vapor 
en equilibrio del CO, en una solución de carbonato de po- 
tasio. Se midió la presión de equilibrio real (en kPa) en nueve 
reacciones diferentes y se comparó con el valor calculado 
por una ecuación. Los resultados se presentan en la tabla si- 
guiente: 


Reacción Estimado Experimental Diferencia 


1 45.10 42.95 2.15 
2 85.77 79.98 5.79 
3 151.84 146.17 5.67 
4 244.30 228.22 16.08 
5 257.67 240.63 17.04 
6 44.32 41.99 2.33 
7 84.41 82.05 2.36 
8 150.47 149.62 0.85 
9 253.81 245.45 8.36 


Determine un intervalo de confianza de 95% para la dife- 
rencia de medias entre las presiones estimadas y reales. 


trate Stability and Composition of Italian Wines” (A. Ver- 
san, D. Barbanti y colaboradores, en Italian Journal of Food 
Science 2002:45-52) notifica un estudio en el que los ocho 
tipos de vino blanco tenían su concentración de ácido tartá- 
rico (en g/1), medido tanto antes como después de un proce- 
so de estabilización frío. Las resultados se presentan en la 
tabla siguiente: 


Tipo de vino Antes Después Diferencia 


1 2.86 2.59 0.27 
2 2.85 2.47 0.38 
3 1.84 1.58 0.26 
4 1.60 1.56 0.04 
5 0.80 0.78 0.02 
6 0.89 0.66 0.23 
7 2.03 1.87 0.16 
8 1.90 1.71 0.19 


Determine un intervalo de confianza de 95% para la dife- 
rencia de medias entre las concentraciones de ácido tartári- 
co antes y después del proceso de estabilización frío. 


3. En un experimento para determinar si hay una diferencia 
sistemática entre los pesos obtenidos con dos balanzas dife- 
rentes, se pesaron diez ejemplares de rocas, en gramos, en 
cada balanza. Se obtuvieron los siguientes datos: 


Ejemplar Peso en la balanza 1 Peso en la balanza 2 


1 11.23 11.27 
2 14.36 14.41 
3 8.33 8.35 
4 10.50 10.52 
5 23.42 23.41 
6 9.15 9.17 
7 13.47 13.52 
8 6.47 6.46 
9 12.40 12,45 
10 19.38 19.35 


Suponga que la diferencia entre las balanzas, si es que hay 
alguna, no depende del objeto pesado. Determine un inter- 
valo de confianza de 98% para esta diferencia. 


. En un tipo específico de motor, el volante está sujeto al blo- 
que de brida del cigiieñal mediante ocho pernos, que se de- 
ben apretar en secuencia. Un ingeniero quiere determinar 
qué diferencia existe entre el par de torsión del primero y el 
último perno que se apretó. En una muestra de siete motores, 
se mide el par de torsión en cada uno de estos pernos. Los 
siguientes son los valores, en N-m, para los pernos 1 y 8. 


Motor Perno 1 Perno 8 
1 105.28 105.38 
2 105.03 105.96 
3 104.53 105.19 
4 104.68 105.61 
5 104.98 105.42 
6 105.21 105.20 
7 105.30 105.98 


Determine un intervalo de confianza de 90% para la dife- 
rencia entre los pares de torsión. 


. En un estudio de tiempo de disolución de diferentes dulces, 
nueve personas disolvieron una pieza de chocolate y una 
pieza de dulce de azúcar y mantequilla. Los tiempos de di- 
solución, en segundos, se presentan en la tabla siguiente: 
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Dulce de azúcar 


Persona Chocolate y mantequilla 
1 51 53 
2 47 40 
3 90 155 
4 65 90 
5 27 33 
6 105 68 
7 90 1p) 
8 54 52 
9 93 7 


Determine un intervalo de confianza de 98% para la dife- 
rencia entre la media de tiempos de disolución de chocola- 
te y caramelo de azúcar y mantequilla. 


. Una muestra de diez camiones diesel fue operada tanto ca- 


liente como fría para calcular la diferencia en el ahorro de 
combustible. Los resultados, en milla/galón, se presentan en 
la tabla siguiente. (De “In-use Emissions from Heavy-Duty 
Diesel Vehicles, ” J. Yanowitz, tesis de doctorado, Escuela 
de Minas, de Colorado, 2001.) 


Camión Caliente Frío 
1 4.56 4.26 
2 4.46 4.08 
3 6.49 5.83 
4 5.37 4.96 
5 6.25 5.87 
6 5.90 5.32 
7 4.12 3.92 
8 3.85 3.69 
9 4.15 3.74 

10 4.69 4.19 


Determine un intervalo de confianza de 98% para la dife- 
rencia en la media del millaje de combustible entre motores 
calientes y fríos. 


Para una muestra de nueve automóviles, se mide el millaje 
(en mil millas) de los patines de frenos frontales originales 
que se han desgastado 10% de su espesor original, así como 
el millaje de los patines de los frenos traseros originales que 
se han desgastado 10% de su espesor original. Los resulta- 
dos están dados en la tabla siguiente: 
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Automóvil Delanteros Traseros 
1 32.8 41.2 
2 26.6 33.2 
3 35.6 46.1 
4 36.4 46.0 
5 29.2 39.9 
6 40.9 31.7 
7 40.9 51.6 
8 34.8 46.1 
9 36.6 47.3 


Determine un intervalo de confianza de 95% para la dife- 
rencia en la media de tiempos de vida entre los patines de 
frenos delanteros y traseros. 


. Con referencia al ejercicio 7, alguien sugiere que el diseño 
emparejado sea reemplazado con un diseño en el que se se- 
leccionan 18 automóviles, se mide el tiempo de vida de los 
frenos delanteros en nueve de ellos, y se mide el tiempo de 
vida de los frenos traseros en los otros nueve. Después se 
construye un intervalo de confianza para la diferencia entre 
las medias usando la expresión (5.21) (de la sección 5.6). Él 
afirma que este diseño producirá un intervalo de confianza 
más preciso, ya que se utilizará 18 automóviles en lugar de 
nueve. 


a) ¿El nuevo diseño producirá un intervalo de confianza 
válido? Explique. 


b) ¿Es probable que el intervalo de confianza producido 
por el nuevo diseño será más preciso que, menos preci- 
so que, o casi con la misma precisión que el intervalo de 
confianza producido por el diseño apareado? Explique. 
(Sugerencia: busque en la figura 5.15.) 


. Un fabricante de neumáticos está interesado en probar el 
ahorro de combustible para dos patrones de huellas diferen- 
tes. Los neumáticos de cada tipo de huella son conducidos 
durante mil millas en cada uno de 18 automóviles diferen- 
tes. Los millajes, en milla/galón, se presentan en la tabla si- 
guiente: 


10. 


Automóvil Huella A Huella B 
1 24.1 20.3 
2 22.3 19.7 
3 24.5 22.5 
4 26.1 23.2 
5 22.6 20.4 
6 23.3 23.5 
' 22.4 21.9 
8 19.9 18.6 
9 27.1 25.8 

10 23:3 21.4 
11 25.4 20.6 
12 24.9 23.4 
13 23.7 20.3 
14 23.9 22.5 
15 24.6 23.5 
16 26.4 24.5 
17 21.5 22.4 
18 24.6 24.9 


a) Determine un intervalo de confianza de 99% para la me- 
dia de la diferencia en el ahorro de combustible. 


b) Un intervalo de confianza basado en los datos de la ta- 
bla tiene un ancho + 0.5 milla/galón. ¿El nivel de este 
intervalo de confianza está más cerca de 80%, de 90% o 
de 95%? 


Con referencia al ejercicio 9, en un experimento distinto se 
equipararon 18 automóviles con neumáticos con huellas del 
tipo A, y 18 del tipo B. Cada automóvil se condujo mil millas. 
Los automóviles con huellas del tipo A promediaban 23.93 
milla/galón, con desviación estándar de 1.79 milla/galón. Los 
automóviles con huellas de tipo B promediaban 22.19 milla- 
/galón, con desviación estándar de 1.95 milla/galón. 


a) ¿Qué método se debe usar para determinar un intervalo 
de confianza para la diferencia entre las medias de los 
millajes de dos tipos de huellas: la expresión (5.24) (de 
esta sección) o la expresión (5.21) (de la sección 5.6)? 


b) Usando el método adecuado, determine un intervalo de 
confianza de 99% para la diferencia entre las medias de los 
millajes de los dos tipos de huella. 


c) ¿Es el intervalo de confianza encontrado en el inciso b) 
más ancho que el encontrado en el ejercicio 9? ¿Por qué 
esto es así? 
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5.8 Uso de simulación para construir 
intervalos de confianza 


SiX;,...,X, son variables aleatorias independientes con desviaciones estándares conocidas, 
Ti... ,0,yU=U(X,,...,X,) es una función de X,,..., X,, entonces el método de la 
propagación del error (véase el capítulo 3) se puede utilizar para calcular la desviación están- 
dar, o la incertidumbre, en U. Si además las variables aleatorias X,,..., X, están distribuidas 
aproximadamente normales, se da con frecuencia el caso (no siempre) de que también U se 
distribuye aproximadamente normal. En estos casos se puede utilizar la expresión (5.13) (de la 
sección 5.3) para calcular un intervalo de confianza para la media de y de U. Con el propósi- 
to de determinar si U está distribuida aproximadamente normal, se puede utilizar la simulación. 

Para dar un ejemplo concreto, suponga que se fabrican lavadoras de acero, cuyos radios 
están distribuidos normalmente con media uz desconocida y desviación estándar conocida 
Tr = 0.1 cm. Se observa que una sola lavadora, seleccionada aleatoriamente, tiene un radio 
de R = 2.5 cm. Debido a que R proviene de una población normal con desviación estándar 
conocida, se puede utilizar la expresión (5.13) para encontrar un intervalo de confianza para 
la media del radio uz. Un intervalo de confianza de 95% para up es R + 1.9607 = 2.5 + 
0.196. Ahora se considera el área de la lavadora. Ésta es A = TR? = 3.14(2.5?) = 19.63 cm?. 
Se puede usar el método de la propagación del error (ecuación 3.10 de la sección 3.3) para 
calcular la desviación estándar, o la incertidumbre, d,, por 


dA 
CA=|57 


7% 9 =2x Ron =2(3.14)(2.5)(0.10) =1.57 em? 


Ahora se tiene un solo valor muestreado A = 19.63, poblacional de todas áreas posi- 
bles, y se tiene una estimación de la desviación estándar de esta población, ar, = 1.57. ¿Se 
puede encontrar un intervalo de confianza para la media ua, del área? Si la distribución de 
áreas estuviera distribuida normalmente, se podría encontrar un intervalo de confianza para 
pa con el mismo método usado para uz, Obteniendo A + 1.960, = 19.63 + 1.96(1.57). La 
suposición de normalidad es necesaria para justificar este método. ¿Cómo se puede determi- 
nar si la distribución de las áreas es normal? Si se tuviera una muestra grande de áreas, se po- 
dría construir una gráfica de probabilidad normal. No se tiene una muestra grande de áreas, 
pero se puede simular una, como se muestra a continuación (véase la sección 4.11 para un 
análisis de los principios básicos de simulación). 

Se empieza por generar una muestra grande de radios simulados R*. Se quiere que la 
distribución poblacional de la cual se extrae la muestra esté tan cerca como sea posible a la dis- 
tribución poblacional a partir de la cual se extrajo la observación R = 2.5. Se sabe que el va- 
lor R = 2.5 fue extraído de una población normal con dz = 0.1. No se conoce up, pero se 
puede utilizar el valor observado R = 2.5 como una aproximación a uz para propósitos de la 
simulación. Por tanto, se generará una muestra grande de radios simulados Ri, ..., Riy de una 
distribución N(2.5, O. 5. (La notación Rf indica que ello representa un valor simulado, en lu- 
gar de un valor observado en un experimento verdadero.) 

Para entender exactamente qué se puede hacer con los valores simulados, imagine que 
se tenía una muestra grande de lavadoras verdaderas, y que sus radios Ry, ..., R, se habían 
determinado. ¿Cuáles son la similitudes y las diferencias entre la muestra real R,,...,R, y 
la muestra simulada Ri, ..., Ry? La muestra verdadera proviene de una población que está 
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normalmente distribuida, se sabe que la desviación estándar es de 0.1, y su media ¡uz es des- 
conocida. La muestra simulada proviene de una población que también está distribuida nor- 
malmente, cuya desviación estándar es también igual a 0.1, y cuya media se ha establecido de 
2.5 (el valor de una observación verdadera de R). Por tanto, la población simulada tiene la 
misma forma (normal) y la extensión (desviación estándar) poblacional real. Las poblaciones 
simuladas y reales tienen medias diferentes (2.5 para la población simulada y el valor desco- 
nocido ¡uz para la población real). 

Ahora para cada R*se calcula un área simulada A? = TR. Imagine que se tenía una 
muestra verdadera de radios, R;, ...,R,, y se calcula una muestra real A,,..., A,, de áreas 
de ésta. Debido a que la muestra de radios simulados Ri, ..., Ri, proviene de una población 
cuya forma y extensión son las mismas que la de la población real de radios, es razonable su- 
poner que la muestra simulada de áreas A%, ..., Af proviene de una población cuya forma y 
extensión son muy similares a la población verdadera de áreas. En otras palabras, es razona- 
ble suponer que la desviación estándar muestral simulada Aj, ..., Aj es cercana a la desvia- 
ción estándar muestral d-,, y es razonable suponer que si la muestra simulada Aj, ..., A; 
proviene de una población que es aproximadamente normal, la población verdadera de áreas 
es también aproximadamente normal. Sin embargo, la media poblacional simulada de áreas 
diferirá de la media poblacional verdadera de las áreas. La razón de esto es que las medias de 
las poblaciones simuladas y reales de radios son diferentes. La media poblacional simulada 
de áreas será cercana a un valor observado verdadero de A, que es 19.63. La media poblacio- 
nal verdadera de áreas es el valor desconocido ua. 

Se construye una gráfica de probabilidad normal para Af, ...., Aj. Si se muestra que la 
población de áreas es aproximadamente normal, entonces se puede suponer que el verdadero 
observado proviene de una población aproximadamente normal, y se puede encontrar un in- 
tervalo de confianza para uz. La figura 5.16 presenta una gráfica de probabilidad normal pa- 
ra una muestra de 1 000 áreas. Con excepción de algunos puntos en cualesquiera de los 
extremos, la suposición de normalidad parece bien satisfecha. 


0.999 
0.99 


0.95 
0.9 


0.75 
0.5 
0.25 
0.1 
0.05 
0.01 
0.001 


FIGURA 5.16 Gráfica de probabilidad normal para 1 000 áreas simuladas. La suposición 
de normalidad está justificada. 


Ejemplo 
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El valor observado de A en realidad es A = 19.63. La desviación estándar de la pobla- 
ción de la que A fue extraída, calculada con el método de propagación del error, es a, = 1.57. 
Debido a que esta población es aproximadamente normal, un intervalo de confianza de 95% 
para la media ¡ua del área es 19.63 + 1.96(1.57), o (16.55, 22.71). 

En el intervalo de confianza apenas calculado, la desviación estándar a, se obtuvo con 
el método de propagación del error. Es también aceptable usar la desviación estándar mues- 
tral de valores simulados Af, ...., A; para estimar d”¿. En los mil valores que se simularon, la 
desviación estándar muestral fue de 1.5891, que estaba cerca del valor 1.57 calculado por la 
propagación del error. Este acercamiento es típico. 

Es importante observar que el centro del intervalo de confianza es el verdadero valor 
observado A, y no la media del valor simulado A*. La razón para esto último es que se está 
determinando un intervalo de confianza para la media poblacional verdadera de áreas ua, y el 
valor observado A se ha muestreado de esta población. Los valores simulados se han mues- 
treado de una población cuya media es diferente a la población verdadera. Por tanto, A* no es 
una elección adecuada para el centro del intervalo de confianza. 

El método apenas descrito puede ser muy útil cuando se hacen mediciones cuyos erro- 
res de medición están distribuidos normalmente. Se presentan algunos ejemplos. 


La longitud y el ancho de un rectángulo se miden de X = 3.0 + 0.1 y Y = 3.5 + 0.2 cm, res- 
pectivamente. Suponga que las mediciones provienen de poblaciones normales y no tienen 
sesgos. Suponga que se conocen las desviaciones estándares rx = 0.1 y dy = 0.2. Determi- 
ne un intervalo de confianza de 95% para el área del rectángulo. 


Solución 

Sea A = XY la medida del área de un rectángulo. El valor observado de A es A = (3.0)3G.5) 
= 10.5. Se usará el método de propagación del error para calcular ,. Entonces se utilizará 
la simulación para comprobar que la distribución de A es aproximadamente normal. Para cal- 
cular d-,, primero se calculan las derivadas parciales de A con respecto a X y Y. 


JA JA 
=+=Y=3.5 == =X=30 
oX oY 


La desviación estándar d, se estima con 
JA ¿(0 e 
OA = —|o — )] 0% 
Ñ ax) "Lar) > 


= 1 (3.5)2(0.1)? + (3.0)2(0.2)? 
= 0.6946 


Para comprobar la normalidad, se generan mil valores simulados Xí, ...., X pay de una dis- 
tribución N(3.0, 0.1?), y otros mil Yi, ...., Yi yoy de una distribución N(3.5, 0.12). Observe que 
se utilizaron los valores observados 3.0 y 3.5 para hacer una aproximación de las medias des- 
conocidas uy y uy (que es la longitud y el ancho, verdadero, respectivamente) para propósitos 
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de simulación. Después se calcula 1 000 áreas simuladas Af, .... , AT o00- Una gráfica de pro- 
babilidad normal se presenta en la figura siguiente. La suposición de la normalidad está jus- 
tificada. Un intervalo de confianza de 95% para el área del rectángulo es 10.5 + 1.96(0.6946). 


T T T T T T 
0.999 F 7 


0.99 - El 


0.95 - 7 
0.9 FP 7 


0.75 p 7 
05rP 7 
0.25 - el 


0.1 Pp =S 
0.05 F sa 


0.01 P El 


0.001F. + =] 


8 9 10 11 12 13 


Nota técnica: En el ejemplo 5.27 se está encontrando un intervalo de confianza para la 
media ¡ua del área medida. El área verdadera del rectángulo es el producto de la longitud ver- 
dadera por el ancho verdadero, que es uxuy. El valor yu, es un poco diferente del producto 
HxHy, pero la diferencia es despreciable para propósitos prácticos. 


Dos resistores, cuyas resistencias se miden de X y Y, están conectados en paralelo. Se calcu- 
la la resistencia total con R = (XN/(X + Y). Suponga que X = 10.0 + 1.00, Y =20.0 + 2.0 
OQ, y que X y Y provienen de poblaciones normales y no tienen sesgos. Encuentre un interva- 
lo de confianza de 95% para la resistencia total. 


Solución 
El valor observado de R es (100/00 + 20) = 6.667 (2. Para calcular dz, primero se calcu- 
lan las derivadas parciales de R: 


IR d 
== = 0.4444 
aX LL F 


IR x Y 
T—=| 5] =0.1111 
oY X+Y 
Ahora 0x = 12 y dz = 2 42. Por tanto, 
 [(ARY 2 (OR e 
A AE EA Er ES 


= y(0.4444)2(1)? + (0.111020)? 
= 0.497 Q 
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Para comprobar la normalidad, se han generado mil valores simulados X%, ... , Xí ppp de una 
distribución N(10, 1.07), y mil Yi, ..., Yi 000 de NO, 2.07). Observe que se utilizan los va- 
lores observados 10 y 20 para aproximar las medias yx y My para propósitos de simulación. 
Después se calculan mil valores simulados Rí, ...., Rí 000 En la siguiente figura se muestra 
una gráfica de probabilidad normal. La suposición de normalidad está justificada. Un interva- 
lo de confianza de 95% para la resistencia total es 6.667 + 1.96(0.497). 
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La nota técnica que se muestra después del ejemplo 5.27 también se aplica al ejemplo 
5.28. Se está determinando realmente un intervalo de confianza en realidad para la media uz 
de la resistencia total medida. Esta media 1, es un poco diferente de la resistencia total ver- 
dadera uxuy/( uy + uy), pero la diferencia es despreciable para propósitos prácticos. 

En algunos casos la distribución de una función U(X,,..., X,) no es normal, aun cuan- 
do X,,...,X, son normales. Por esta razón es importante comprobar la normalidad con una 
simulación. El ejemplo 5.29 proporciona una muestra. 


La masa de una roca se mide de M = 10 = 0.4 g, y su volumen se mide de V = 1.0 = 0.2 
ml. Se calcula la densidad con D = M/V. Se supone que M y V provienen de poblaciones nor- 
males y no tienen sesgos. ¿¿D está distribuida normalmente? ¿Se puede utilizar el método des- 
crito en los ejemplos 5.27 y 5.28, que está basado en la curva normal, para encontrar un 
intervalo de confianza de 95% para la densidad de la roca? 


Solución 
Se generan mil valores simulados Mí, . . . , Mí qop de una distribución de N(10, 0.4), y mil 
más Vi, ...., Vi 00 de una distribución N(1.0, 0.22). Después se calculan los valores Dj = 


MI Ví. Una gráfica de probabilidad normal de los Dse muestra en la figura siguiente. La su- 
posición de normalidad no está justificada. El método basado en la curva normal no se pue- 
de utilizar para encontrar un intervalo de confianza para la densidad de la roca. 
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Intervalos de confianza usando estimación bootstrap 


Cuando se extrae una muestra de una población que no es normal, y se requiere un intervalo 
de confianza, se pueden utilizar los métodos basados en la estimación bootstrap (véase la sec- 
ción 4.11). Existen muchos de estos métodos; aquí se presenta uno simple y se muestra cómo 
utilizarlo para construir un intervalo de confianza para una media poblacional. 

Se considerará el siguiente ejemplo. El artículo “In-use Emissions from Heavy Duty 
Diesel Vehicles” (J. Yanowitz, tesis de doctorado, Escuela de Minas, de Colorado, 2001) pre- 
senta mediciones de eficiencia del combustible (en milla/galón) de una muestra de siete ca- 
miones. Los datos son los siguientes: 


769 497 456 6.49 434 6.24 4.45 


Se supone que ésta es una muestra aleatoria de una población de camiones, y que se de- 
sea construir un intervalo de confianza de 95% para la media uu de la eficiencia de combusti- 
ble de esta población. Al observar la muestra se sugiere que hay una separación cerca de la 
mitad de la distribución, ya que no hay ningún camión en la muestra con valores entre 5 y 6. 
Por tanto, no se podría suponer que los datos fueran normales. La estimación bootstrap pro- 
porciona un método para construir un intervalo de confianza, cuyo nivel será aproximadamen- 
te de 95% (o cualquier otro valor que se podría especificar). 

Para construir un intervalo de confianza de estimación bootstrap, se deben extraer mues- 
tras de estimación bootstrap de los datos. Una muestra de estimación bootstrap es del mismo 
tamaño que los datos, extraída con reemplazo. Para describir esto último con detalle, se de- 
notan los valores en una muestra aleatoria por X;, ..., X,,. Imagine colocar estos valores en 
una caja y extraer uno al azar. Éste sería el primer valor de la muestra de estimación boots- 
trap; se le denota con Xí. Después se regresa a Xí a la caja, y se extrae otro valor, X5. Se con- 
tinúa de este modo hasta que se ha extraído n valores Xí, ...., X;. Ésta es una muestra de 
estimación bootstrap. Observe que cada valor en la muestra de estimación bootstrap se ha ex- 
traído de la muestra de datos completa, por lo que es probable que algunos valores aparece- 
rán más de una vez mientras que otros no lo harán. 

Se extrajeron mil muestras por estimación bootstrap de los datos específicos del millaje. 
Los primeros diez y el último de éstos se presentan en la tabla 5.2. La media muestral se calcu- 
la para cada muestra de estimación bootstrap. 
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TABLA 5.2 Muestras de estimación bootstrap de los datos del millaje 


Muestra Valores de la muestra Media muestral 


1 4.97 6.49 7.69 4.97 7.69 4.56 4.45 5.8314 
2 6.24 4.97 4.56 4.97 4.56 6.24 7.69 5.6043 
3 4,34 445 456 4.45 6.24 4.97 4.34 4.7643 
+ 4.45 6.49 7.69 6.24 4.97 4.45 4,34 5.5186 
5 6.24 4,334 4.45 7.69 4.56 4.34 4.45 5.1529 
6 4,34 4.097 7.69 4.97 6.24 6.24 6.24 5.8129 
7 445 6.49 6.24 4.97 4.34 7.69 4.34 5.5029 
8 6.49 7.69 4.97 6.49 6.49 4.34 4,56 5.8614 
9 7.69 445 445 4.45 445 4.56 4.56 4.9443 
10 6.24 4.56 4.97 6.49 4.45 4.97 6.24 5.4171 
1000 434 7.69 4.45 4.56 7.69 4.45 7.69 5.8386 


Para construir un intervalo de confianza de estimación bootstrap, se deben extraer mu- 
chas muestras de estimación bootstrap (mil como mínimo). Debido a que se quiere un inter- 
valo de confianza para la media y poblacional, se calcula la media muestral para cada muestra 
de estimación bootstrap. Sea Xfla media de la ¡-ésima muestra de estimación bootstrap. De- 
bido a que se quiere que el nivel del intervalo de confianza esté tan cerca de 95% como sea 
posible, se determina el intervalo que contiene a 95% del intermedio de las medias muestra- 
les de estimación bootstrap. Los puntos finales de este intervalo son 2.5 percentil y 97.5 per- 
centil de la lista de las medias de estimación bootstrap. Se denotan estos percentiles por X%5 
y X “975, respectivamente. 

Se calcularon estos percentiles para los datos del millaje. Las siguientes son las 26 más 
pequeñas y 26 más grandes de las mil muestras de estimación bootstrap X?. 


26 más pequeñas: 4.4929 4.4971 4.5357 4.5400 4.5514 4.5557 4.5557 4.5829 
4.5986 4.6143 4.6429 4.6457 4.6729 4.6729 4.6900 4.6943 
4.7014 4.7157 4.7257 4.7257 4.7329 4.7371 4.7414 4.7486 
4.7643 4.7643 

26 más grandes: 6.4757 6.4757 6.4800 6.4900 6.4986 6.5214 6.5443 6.5543 
6.5929 6.5929 6.6257 6.6257 6.6471 6.6671 6.6900 6.6929 
6.7057 6.7129 6.7514 6.7971 6.7971 6.8486 6.9329 6.9686 
7.0714 7.1043 


Utilizando el método del cálculo de percentiles presentado en el capítulo, el percentil 
2.5 es el promedio de los 250. y 260. valores en la muestra ordenada de mil, y el percentil 
97.5 es el promedio de los valores 9750. y 9760. Por tanto, en este caso Xp = 4.7643 y X'%y5 
= 6.4757. 

Ahora hay dos métodos disponibles para construir el intervalo de confianza; cuál será 
el mejor es un tema de cierta controversia. En el método 1, el intervalo de confianza es (X'hos, 
X' 975). El método 2 utiliza la media X de la muestra original, además de los percentiles; con 
el método 2 el intervalo de confianza es (2X — Xvy5, 2X — X205). Para los datos del millaje, el 
intervalo de confianza de 95% por el método 1 es (4.7643, 6.4757). 
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La media muestral para los datos del millaje es X = 5.5343. Por tanto, el intervalo de con- 
fianza de 95% calculado por el método 2 es 


(2(5.5343) — 6.4757, 2(5.5343) — 4.7643) = (4.5929, 6.3043) 


Para este caso específico, los intervalos de confianza de los dos métodos son similares. 


Dada una muestra aleatoria X,, ..., X, de una población con media ¡u, un intervalo de 
confianza de estimación bootstrap para ¡u con nivel aproximado de 100(1 — 0)% se 
puede calcular como se muestra a continuación: 


M Extraiga un gran número m (m = 1 000) de muestras de estimación bootstrap de 
tamaño n con reemplazo de X,,..., X;,.. 


E Calcule la media de cada muestra de estimación bootstrap. Denote estas medias de 
estimación bootstrap por X%, ..., Xí. 


E Calcule los percentiles 100q/2 y 100(1 — 0/2) de las medias de estimación. Deno- 
te estos valores X*y», X — ¿jo 


Mi Hay dos métodos para calcular el intervalo de confianza. 
Método 1: As, Xi = al) Método 2: QX > Xi —- al> 2X — Xan) 


Aunque al principio no es obvio, existe una conexión entre el método de estimación 
bootstrap presentado aquí para el cálculo de los intervalos de confianza para una media po- 
blacional y el de grandes muestras basado en la curva normal. En ambos casos el ancho del 
intervalo de confianza debe idealmente ser igual al ancho de 95% intermedio de la distribu- 
ción de la media muestral X. Cuando el tamaño muestral es grande, la distribución de X si- 
gue la curva normal, por lo que el ancho del intervalo de confianza de 95% es puesto para 
igualar el ancho de 95% intermedio de la distribución normal (véase la figura 5.1 en la sec- 
ción 5.1). Se utiliza la estimación bootstrap cuando la distribución de X no es necesariamen- 
te normal. La colección de las medias muestrales de estimación bootstrap X* se aproxima a 
una muestra aleatoria de la distribución de X, por lo que esta colección, en vez de la curva 
normal, constituye la base para el intervalo de confianza. El ancho del intervalo de confianza de 
estimación bootstrap es puesto para igualar el ancho de 95% intermedio de la media muestral 
de estimación bootstrap con el fin de aproximar el ancho de la distribución desconocida de X. 

Hay muchos métodos diferentes para calcular intervalos de confianza de estimación 
bootstrap. Los métodos simples que aquí se presentan funcionan bien cuando la población de 
la cual se extrajo la muestra de estimación bootstrap es aproximadamente simétrica, pero no 
funcionan bien cuando está muy sesgada. Se han desarrollado métodos más sofisticados que 
producen buenos resultados con condiciones más generales. Se puede encontrar información 
adicional sobre este tema en Efron y Tibshirani (1993). 


Uso de simulación para evaluar intervalos de confianza 


Un intervalo con nivel de confianza del 10011 — 0)% es el que se calcula mediante un pro- 
cedimiento que tiene éxito en contener el valor verdadero para el 100(1 — 0)% de todas las 
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muestras que posiblemente se pudiera extraer. Cuando los supuestos que gobiernan el uso de 
un método son incumplidos, esta tasa de éxito (también llamada la probabilidad de cober- 
tura) podría ser más baja. Con frecuencia, en la práctica, los supuestos no son válidos. Algu- 
nos métodos son muy sensibles a sus suposiciones, en lo que respecta a la probabilidad de 
cobertura puede ser mucho menos del 100(1 — 0%, aun cuando los supuestos son solamente 
incumplidos. Otros métodos son “robustos”, ello significa que la probabilidad de cobertura no 
se va muy por debajo del 100(1 — (0% en tanto sus suposiciones se satisfagan de manera 
aproximada. La ventaja de un método robusto es que es útil en una amplia gama de condicio- 
nes y requiere menos preocupación acerca de sus suposiciones. Los experimentos de simula- 
ción proporcionan una buena manera de valorar la robustez de un procedimiento estadístico. 
En seguida se presenta un experimento que será instructivo respecto a la robustez del método 
t de Student para construir intervalos de confianza para una media poblacional (expresión 5.9 
en la sección 5.3). 

La distribución t de Student se puede utilizar para construir intervalos de confianza pa- 
ra una media poblacional, siempre que la muestra provenga de una población que sea “apro- 
ximadamente” normal. Se realizará un experimento de simulación para tener un poco de 
percepción de cómo se puede hacer burdamente esta aproximación. La siguiente figura mues- 
tra la función de densidad de probabilidad para la distribución PQ.S, 0.5) (que también se co- 
noce como distribución Ji-cuadrada con cinco grados de libertad). Está bastante sesgada y no 
se parece a la curva normal. La media de esta población es yu = 5. Si el método t de Student se 
aplica a muestras de tamaño 5 de esta población, ¿qué proporción de veces el intervalo de 
confianza de 95% contendrá la media verdadera? 


0.15 Pp 


0.1p 


0.05 p- 


0 l l 
0 5 10 15 20 


Función gamma conr=2.5 y A=0.5 


Para abordar esta pregunta, se generan 10 000 muestras de tamaño 5 de la distribución 
TQ.S, 0.5). Se denota la ¡-ésima muestra mediante X¡;, X5j, X3;, X4;, X5;; denote su media 
muestral por medio de X;; y la desviación estándar muestral por s. Para cada muestra se cal- 
cula un intervalo de confianza usando la fórmula por un intervalo de confianza de 95% basa- 
do en la distribución f de Student (expresión 5.9 de la sección 5.3). El límite de confianza 
inferior es L¿= X? — 2.7765;/,/5 (observe que fa 0.025 = 2.776). El límite de confianza supe- 
riores Uj= Xi + 2.7765;/,/5 . En la tabla 5.3 se presenta los resultados para las primeras diez 
y la última muestras. La columna derecha contiene un “1” si Lf< 5 < Uf, en otras palabras, 
si el ¡-ésimo intervalo de confianza contiene a la media verdadera de 5. 
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TABLA 5.3 Datos simulados de la distribución T(2.5, 0.5) 


E O O O O O 
1 2.58 6.54 3.02 340 123 3.36 196 092 5.79 1 
2 128 144 145 10.22 4.17 3.71 3.83 -105 8.47 1 
3 726 3.28 285 8.94 12.09 6.88 3.89 2.05 11.72 1 
4 6.11 3.81 7.06 11.89 3.01 6.38 3.49 2.04 10.72 1 
5 446 9.70 5.14 245 499 535 266 2.05 8.65 1 
6 220 146 9.30 2.00 4.80 3.95 3.26 -0.09 7.99 1 
7 7.17 13.33 6.19 1031 849 9.10 2.83 5.59 12.61 1 
8 197 181 413 128 5.16 287 168 0.78 4.95 0 
9 3.65 198 8.19 7.20 3.81 4.97 2.61 172 8.21 1 
10 3.39 231 186 5.97 5.28 3.76 180 152 6.00 1 
10000 7.30 7.21 164 3.54 3.41 462 252 149 7.75 ] 


Nueve de los diez primeros intervalos de confianza contienen la media verdadera. Así 
que si se basaran en los resultados de las diez primeras muestras, se estimaría la probabilidad 
de cobertura del intervalo de confianza de 0.90. Por supuesto, diez muestras no son suficien- 
tes. De las 10 000 muestras, la media verdadera estaba contenida en 9 205 de ellas. Por tan- 
to, se estima la probabilidad de cobertura de 0.9205. Mientras que ésta es menor de 95%, no 
es dramáticamente menor. Esta simulación indica que el procedimiento t de Student es bas- 
tante fuerte; en otras palabras, que los intervalos de confianza basados en la distribución £ de 
Student contienen la media verdadera tan a menudo como la deben contener, incluso cuando 
la población es un poco diferente de la normal. 

Si la población se desvía mucho de la normal, el método £ de Student no funciona bien. 


(Véase el ejercicio 8.) 


Ejercicios para la sección 5.8 


1. 


La presión de aire (en MPa) que entra en un compresor que 
se mide de X = 8.5 + 0.2, y la que sale se mide de Y = 21.2 
= 0.3. Por tanto, la presión intermedia se mide de P = VXY 
= 13.42. Suponga que X y Y provienen de poblaciones nor- 
males y no tienen sesgos. 


a) ¿A partir de qué distribuciones es apropiado simular los 
valores X* y Y*? 


b) Genere muestras simuladas de los valores X*, Y* y P*. 


c) Utilice el método de propagación del error para calcular 
la desviación estándar de P. (Puede usar la muestra si- 
mulada.) 


d) Construya una gráfica de probabilidad normal para los 
valores P*. ¿Es razonable suponer que P está aproxima- 
damente normal distribuida? 


e) Si es apropiado, use la curva normal para encontrar un 
intervalo de confianza de 95% para la presión interme- 
dia. 


La masa (en kg) de una muestra de tierra se mide de X = 
1.18 + 0.02. Después la muestra es deshidratada en un hor- 
no, la masa de la tierra deshidratada es de Y = 0.85 + 0.02. 
Suponga que X y Y provienen de poblaciones normales y no 
tienen sesgos. El contenido de agua de la tierra se mide de 
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a) ¿Con cuál distribución es adecuado simular los valores 
de X* y Y”? 
b) Genere muestras simuladas de valores X*, Y* y W?. 


c) Use el método de propagación del error para calcular la 
desviación estándar de W (puede usar la muestra simu- 
lada). 


d) Construya una gráfica de probabilidad normal para los 
valores de W”. ¿Es razonable suponer que W está distri- 
buida normalmente? 


e) Si es apropiado, utilice la curva normal para encontrar 
un intervalo de confianza de 95% para el contenido de 
agua. 


. Un estudiante mide la aceleración A de un carro que se es- 
tá moviendo hacia abajo de un plano inclinado midiendo el 
tiempo T cuánto le toma al carro recorrer 1 m y usando la 
fórmula A = 2/77. Suponga que T = 0.55 + 0.01 s, y que 
la medición proviene de una población de normal y no tie- 
ne sesgos. 


a) Genere una muestra simulada adecuada de valores de 
A*, Es razonable suponer que A se distribuye normal- 
mente. 


b) Utilice el método de propagación del error para calcular 
la desviación estándar de A. (Por otra parte, puede usar 
la muestra simulada.) 


c) Si es adecuado, utilice la curva normal para encontrar un 
intervalo de confianza de 95% para la aceleración del 
carro. 


. La temperatura inicial de cierto recipiente se mide de 7, = 
20*C. La temperatura ambiental se mide de 7, = 4*C. Un 
ingeniero utiliza la ley de enfriamiento de Newton para cal- 
cular el tiempo necesario para enfriar el recipiente a una 
temperatura de 10C. Tomando en cuenta las propiedades 
físicas del recipiente, este tiempo (en minutos) se calcula de 


T = 401n Ms Ta. 
107, 


Suponga que las mediciones de temperatura 7, y T,, no tie- 
nen sesgos y que provienen de poblaciones normales con 
desviación estándar de 0.1*C. 


a) Genere una muestra simulada adecuada de valores T*. 
¿Es razonable suponer que T está distribuida normal- 
mente? 


b) Utilice el método de propagación del error para calcular 
la desviación estándar de 7 (puede usar la muestra simu- 
lada). 


c) Sies adecuado, utilice la curva normal para encontrar un 
intervalo de confianza de 95% para el tiempo necesario 
para enfriar el recipiente a una temperatura de 10*C. 


. En el artículo “Occurrence and Distribution of Ammonium 


in lowa Groundwater” (K. Schilling, en Water Environment 
Research, 2002:177-186), se midieron concentraciones de 
amonio (en mg/l) en un gran número de pozos en lowa. És- 
tas incluían 349 pozos aluviales y 143 pozos cuaternarios. 
Las concentraciones en los pozos de aluviales promediaban 
0.27 con una desviación estándar de 0.40, y aquellos en los 
pozos cuaternarios determinaron el promedio de 1.62 con 
una desviación estándar de 1.70. Debido a que estas desvia- 
ciones estándares están basadas en muestras grandes, supon- 
ga que son despreciables a diferencia de las desviaciones 
estándares poblacionales. Una estimación para la razón de 
la media de la concentración en pozos cuaternarios con la 
media de la concentración en pozos aluviales es R = 
1.62/0.27 = 6.00. 


a) Puesto que las medias muestrales 1.62 y 0.27 están ba- 
sadas en muestras grandes, es razonable suponer que 
provienen de poblaciones normales. ¿Qué distribución 
se aproxima a la distribución de la media muestral de 
concentración de pozos aluviales, N(0.27, 0.40%) o 
N(0.27, 0.40*/349)? ¿Qué distribución se aproxima a la 
distribución de la media muestral de concentración de 
pozos cuaternarios, N(1.62, 1.70?) o N(1.62, 1.707/143)? 
Explique. 

b) Genere una muestra simulada de las medias muestrales 
y de las proporciones de las medias muestrales. ¿Es ra- 
zonable suponer que la proporción R está distribuida 
normalmente? 


c) Utilice el método de la propagación del error para esti- 
mar la desviación estándar de R (puede usar la muestra 
simulada). 


d 


= 


Si es adecuado, utilice la curva normal para encontrar un 
intervalo de confianza de 95% para la proporción de las 
medias de las concentraciones. 


. En el ejemplo 5.20 (de la sección 5.3) se presentaron las 


mediciones siguientes para la fuerza compresiva cilíndrica 
(en MPa) para 11 vigas: 


38.43 38.43 38.39 38.83 38.45 38.35 
38.43 38.31 38.32 38.48 38.50 


Se generaron 1 000 muestras de estimación bootstrap a partir 
de estos datos, y las medias muestrales de estimación bootstrap 
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se arreglaron en orden. Denotando al valor más pequeño 
con Y;, el segundo más pequeño como Y,, y así sucesiva- 
mente, siendo el más grande Y; y. Suponga que Ys = 
38.3818, Ys = 38.3818, Ysy = 38.3909, Y,, = 38.3918, 
Yoso = 38.5218, Yos, = 38.5236, Yo75 = 38.5382 y Yo76 = 
38.5391. 


a) Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 1 como se describe en la p. 358. 


b) Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 


c) Calcule un intervalo de confianza de estimación boots- 
trap de 90% para la media de la fuerza compresiva, 
usando el método 1, como se describe en la p. 358. 


d) Calcule un intervalo de confianza de estimación boots- 
trap de 90% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 


. Con referencia al ejercicio 6. 


a) Genere 1 000 muestras de estimación bootstrap de estos 
datos. Determine los percentiles 2.5 y 97.5. 


b) Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 1, como se describe en la p. 358. 


c) Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 


. Este ejercicio continúa con el estudio de la fortaleza del mé- 
todo £ de Student para construir intervalos de confianza. La 
siguiente figura muestra gráficas de las funciones de densi- 
dad de probabilidad para la distribución de N(0, 1), la dis- 
tribución lognormal con y = 1 y o? = 025, y la 
distribución gamma con r = 0.5 y A = 0.5 (esta última tam- 
bién se conoce como distribución Ji-cuadrada con un grado 
de libertad). Para cada una de estas distribuciones, genere 
10 000 muestras de tamaño 5, y para cada muestra calcule 
los límites superior e inferior de un intervalo de confianza 
de 95% con el método 1 de Student. [Si fuera necesario, es 
posible calcular valores aleatorios lognormal y gamma a 
partir de valores aleatorios de la normal. Específicamente, 
calcule un valor X de una distribución de lognormal con 
u =1y0*=0.25, genere Y — N(1, 0.25) y calcule X = e”. 
Para generar un valor de X a partir de una distribución gam- 
ma con r = 0.5 y 1 = 0.5, genere Y — N(0, 1) y calcule a 
x=Y1 


0.4p 


03p 


0.1p 


1 1 L ji L f 
24 3-2 -10 1 2 3 4 
Distribución normal con 
p=0, 02=1 


0 1 1 1 
0 2 4 6 8 10 12 


Distribución lognormal con 
p=1, 02=0.25 


15p 


0.5p 


0 1 2 3 4 E 


Distribución gamma con 
r=05y1=0.5 


a) La media verdadera de la distribución N(0, 1) es O. Con 
base en los resultados de simulación, estime la probabi- 
lidad de cobertura (proporción muestral para las que el 
intervalo de confianza contiene la media verdadera) pa- 
ra muestras de tamaño 5 de la distribución N(O0, 1). (En 
virtud de que los supuestos subyacentes del método 1 del 
estudiante se satisfacen aquí, su respuesta debe ser muy 
cercana a 95%.) 
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b) La media verdadera de la distribución lognormal con y = 1, 
a? = 0.25 es 3.0802. Con base en los resultados de simu- 
lación, calcule la probabilidad de cobertura (la propor- 
ción de muestras para las que el intervalo de confianza 
contiene a la media verdadera) para muestras de tamaño 
5 de la distribución lognormal con q = 1, o? =0.25. 


c) La media verdadera de la distribución gamma con r = 0.5 
y 1 =0.5 es 1. Con base en los resultados de simulación, 
calcule la probabilidad de cobertura (la proporción de 
muestras para las cuales el intervalo de confianza con- 
tiene a la media verdadera) para muestras de tamaño 5 
de la distribución gamma con r = 0.5 y 1 = 0.5. 


. Este ejercicio está diseñado para comparar el desempeño del 
intervalo de confianza de Agresti-Coull para una proporción 
(expresión 5.5 en la p. 316) con la del intervalo de confian- 
za tradicional (expresión 5.8 en la p. 319). Se usarán tama- 
ños muestrales de n = 10,n = 17, y n = 40, con p = 0.5. 


a) Genere 10 000 observaciones X;, cada una de una distri- 
bución binomial con n = 10 y p = 0.5. Para cada obser- 
vación, calcule los límites superior e inferior tanto para 
el intervalo de confianza de Agresti-Coull de 95% como 
para el tradicional. Para cada intervalo de confianza, cal- 
cule su longitud (límite superior-límite inferior). Utilice 
los datos simulados para calcular la probabilidad de co- 
bertura y la media del ancho tanto para el intervalo de 
confianza de Agresti-Coull como para el tradicional. 


b) Repita el inciso a), usando n = 17. 
c) Repita el inciso a), usando n = 40. 
d) El desempeño del intervalo de confianza tradicional no 


mejora regularmente conforme el tamaño muestral au- 
menta; en lugar de eso oscila, por lo que la probabilidad 
de cobertura puede ser mejor para una muestra más peque- 
ña que para una más grande. Compare las probabilida- 
des de cobertura con el método tradicional para tamaños 
muestrales de 17 y de 40. ¿Sus resultados confirman es- 
te hecho? 


e) ¿Para qué tamaños muestrales el intervalo Agresti-Coull 
tiene mayor probabilidad de cobertura que con el tradi- 
cional? ¿Para qué tamaños muestrales son las probabili- 
dades de cobertura casi iguales? 


f) Otras cosas serán iguales, un intervalo de confianza más 
angosto es mejor que uno más amplio. ¿Qué método pro- 


duce intervalos de confianza con media del ancho más 
angosta? 


10. Un método general para encontrar un intervalo de confian- 


za para la diferencia entre dos medias poblacionales norma- 
les está dado por la expresión (5.21) en la p. 341. Se puede 
usar un método combinado cuando se sabe que las varian- 
zas de las poblaciones son iguales y está dado por la expre- 
sión (5.22) en la p. 343. Este ejercicio está diseñado para 
comparar las probabilidades de cobertura de estos métodos 
bajo una variedad de condiciones. 


a) Seanx = 10,ny= 10,0; =1y 0, = 1. Genere 10 000 
pares de muestras: Xi; . . . , X,, de una distribución 
NO, 00, y Yió--.. ¡ny de distribución N(O, a). Para 
cada par de muestras, calcule un intervalo de confianza 
de 95% con el método general, y otro de 95% utilizan- 
do el método combinado. Observe que cada población 
tiene media 0, por lo que la diferencia verdadera entre 
medias es 0. Estime la probabilidad de cobertura para 
cada método calculando la proporción de intervalos de 
confianza que contienen al valor verdadero 0. 


b) Repita el inciso a), utilizando nz = 10, ny = 10, ox =1 
y ay=5. 

c) Repita el inciso a), utilizando nz = 5, ny = 20, 0x =1 y 
dy=5. 


d 


= 


Repita el inciso a), utilizando nz = 20, ny = 20, rx =1 
y ay =3. 


e) La probabilidad de cobertura para el método general es 
diferente de 95% en cualesquiera de las condiciones de 
los incisos a) al d)? (Esto no se debe hacer.) 


f) Con base en los resultados de los incisos a) al d), ¿bajo 
qué condiciones el desempeño del método combinado 
sería más malo? 


i) Cuando los tamaños muestrales son iguales y las va- 
rianzas son diferentes. 


1i) Cuando tanto los tamaños muestrales como las va- 
rianzas son diferentes, y la muestra más grande pro- 
viene de la población con la varianza más grande. 


111) Cuando tanto los tamaños muestrales como las va- 
rianzas son diferentes, y la muestra más pequeña 
proviene de la población con la varianza más grande. 
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Ejercicios adicionales para el capítulo 5 


1. Un biólogo molecular está estudiando la eficacia de una c) ¿Cuántos alambres se deben probar con el propósito de 


enzima especial para digerir cierta secuencia de nucleóti- 
dos del ADN. Divide seis muestras de ADN en dos partes, 
trata una parte con la enzima, y deja la otra parte sin tratar. 


b) ¿Cuál es el nivel del intervalo de confianza (17.1, 17.5)? 


que un intervalo de confianza de 98% especificará la 
media dentro de + 0.1 m2? 


Después analiza utilizando una reacción en cadena de po- 5, Una muestra de 125 piezas de hilo tuvo una media de fuer- 
limerasa para contar el número de fragmentos de ADN que za de ruptura de 6.1 N y una desviación estándar de 0.7 N. 
contienen la secuencia dada. Los resultados son los si- Se hizo un nuevo grupo de hilo, usando nuevas materias pri- 
guientes: mas de un distribuidor diferente. En una muestra de 75 pie- 
zas de hilo del nuevo grupo, la media de la fuerza de ruptura 
era de 5.8 N y la desviación estándar de 1.0 N. Encuentre 
Muestra un intervalo de confianza de 90% para la diferencia en la 
1 2 3 4 5 6 media de la fuerza de ruptura entre los dos tipos de hilos. 
Enzima presente 22 16 11 14 12 30 , os nda ; 
s 6. Con referencia al ejercicio 5 se muestrean más piezas de hi- 
Enzima ausente 43 34 16 27 10 40 1 Lfin d ral iét del ntevalod - 
o con el fin de mejorar la precisión del intervalo de con 
fianza. ¿Cuál incrementaría más la precisión: muestrear 50 
Determine un intervalo de confianza del 95% para la dife- De made Ao 07 po viejos 0 pue Tas MORA proye 
rencia entre la media de los números de fragmentos. nientes del nuevo grupo, o 25 piezas más de cada uno de los 
grupos? 
. Con referencia al ejercicio 1, otra bióloga molecular repite 
el estudio con un diseño diferente. Toma 12 muestras de 7- La fuga de tanques de combustible subterráneos ha sido una 
ADN, y después elige seis aleatoriamente para tratarlas con fuente de contaminación del agua. En una muestra aleatoria 
la enzima y seis permanecen sin tratamiento. Los resultados de 87 estaciones de gasolina, se encontró que 13 tenían al 
son los siguientes: menos un tanque subterráneo con fuga. 
Enzima presente: 12 15 14 22 22 20 a) Determine un intervalo de confianza de 95% para la pro- 
Enzima ausente: 23 39 37 18 26 24 porción de estaciones de gasolina con, por lo menos, un 
tanque subterráneo con fuga. 
Determine un intervalo de confianza de 95% para la dife- b) ¿Cuántas estaciones se deben muestrear para que un in- 
rencia entre la media de los números de fragmentos. tervalo de confianza de 95% especifique la proporción 
dentro de + 0.03? 
. El artículo “Genetically Based Tolerance to Endosulfan, 
Chromium (VI) and Fluoranthene in the Grass Shrimp Pa- 8. Un nuevo catalizador está siendo investigado para el uso en 
laemonetes pugio” (R. HarperArabie, Tesis de doctorado, la producción de un plástico químico. Se producen diez gru- 
Escuela de Minas, de Colorado, 2002) informa que de 1 985 pos del producto químico. La media de la producción de los 
huevos producidos por el langostino en el sitio Diesel Creek diez grupos es 72.5% y la desviación estándar es 5.8%. Su- 
en Charleston, Carolina del Sur, 1 919 incubaron, y en el sitio ponga que las producciones son independientes y normal- 
de Shipyard Creed, también en Charleston, de 4 561, 4 988 mente distribuidas. Encuentre un intervalo de confianza de 
incubaron. Determine un intervalo de confianza de 99% pa- 99% para la media de la producción cuando se usa un nue- 
ra la diferencia entre las proporciones de huevos que se in- vo catalizador, 
cubaron en los dos sitios. 
9. Se calculan tres intervalos de confianza para la media de la 
. Se hicieron mediciones de resistencia en una muestra de 81 fuerza de corte (en ksi) de pernos de anclaje de un tipo da- 
alambres de cierto tipo. La media muestral de resistencias do, todos de la misma muestra. Los intervalos son (4.01, 
era de 17.3 m y la desviación estándar era de 1.2 m0. 6.02), (4.20, 5.83) y (3.57, 6.46). Los niveles de los interva- 
los son 90, 95 y 99%. ¿Qué intervalo tiene cada nivel? 
a) Determine un intervalo de confianza de 98% para la me- 
dia de la resistencia de este tipo de alambre. 10. Se realiza una encuesta en la que a una muestra aleatoria de 


residentes en cierta ciudad se les preguntará si están en fa- 


11. 


12. 


13. 


14. 


vor o se oponen a la construcción de un nuevo estaciona- 
miento en el centro. ¿A cuántos residentes se les debe pre- 
guntar para asegurar que un intervalo de confianza de 95% 
para la proporción que favorece la construcción especifica 
que proporción está dentro de +0.05? 


En el artículo “Groundwater Electromagnetic Imaging in 
Complex Geological and Topographical Regions: A Case 
Study of a Tectonic Boundary in the French Alps” (S. Hou- 
tot, P. Tarits y colaboradores, Geophysics, 2002:1048- 
1060), se midió el pH para varias muestras de agua en 
diferentes localizaciones cerca del lago Gittaz en los Alpes 
franceses. Los resultados para 11 localizaciones en el lado 
norte del lago y para seis localizaciones en el lado sur son 
las siguientes: 


Lado norte: 81 82 8.1 82 82 7.4 
73 74 81 81 79 
Lado sur: 78 82 79 79 8.1 8.1 


Determine un intervalo de confianza de 98% para la dife- 
rencia en pH entre el lado norte y el sur. 


Los policlorobifenilos (PCB) son un grupo de químicos sin- 
téticos parecidos al aceite que fueron en un tiempo amplia- 
mente usados como aislantes de equipo eléctrico y se 
descargaban en ríos. Se descubrió que presentaban un riesgo 
para la salud y se prohibieron en la década de 1970. Desde 
entonces se ha dedicado mucho esfuerzo para dar segui- 
miento a las concentraciones de PCB en canales navega- 
bles. Suponga se están extrayendo muestras de agua de un 
canal navegable con el fin de calcular la concentración de 
PCB. 


a) Suponga que una muestra aleatoria de tamaño 80 tiene 
una media muestral de 1.69 ppb y desviación estándar 
muestral de 0.25 ppb. Determine un intervalo de con- 
fianza de 95% para la concentración de PCB. 


b) Calcule el tamaño muestral necesario con el propósito 
de que un intervalo de confianza de 95% especificará 
que la media poblacional está dentro de +0.02 ppb. 


Se calcula un intervalo de confianza de 90% para una me- 
dia poblacional basada en 144 observaciones de (2.7, 3.4). 
¿Cuántas observaciones se debe hacer para que dicho inter- 
valo de confianza de 90% especificara la media dentro de 
+0.2? 


Se extrae una muestra de 100 componentes, y un intervalo 
de confianza de 95% para la proporción de componentes 
defectuosos especifica esta proporción dentro de 0.06. Pa- 
ra obtener una estimación más precisa del número de com- 


15. 


16. 
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ponentes defectuosos, el tamaño muestral se incrementará a 
400, y el intervalo de confianza será nuevamente calculado. 
¿Cuál será el ancho aproximado del nuevo intervalo de con- 
fianza? Elija la mejor respuesta: 


i) =0.015 
ii) +=0.03 
ii) +0.06 
iv) +0.12 
v) +0.24 


Un metalúrgico hace varias mediciones de la temperatura de 
fusión de cierta aleación y calcula un intervalo de confianza 
de 95% de 2 038 + 2*C. Suponga que el proceso de medi- 
ción de la temperatura no está sesgado. Verdadero o falso: 


a) Hay una probabilidad de 95% de que la temperatura de 
fusión verdadera esté en el intervalo 2 038 + 2*C. 


b) Si el experimento fuera repetido, la probabilidad es de 
95% de que la media de la medición de ese experimen- 
to estaría en el intervalo 2 038 + 2*C. 


c) Si el experimento fuera repetido, y un intervalo de con- 
fianza de 95% se calcula, hay una probabilidad de 95% 
de que el intervalo de confianza contendría al punto de 
fusión verdadero. 


d) Si se hubiera hecho una medición más, la probabilidad 
es de 95% de que estaría en el intervalo 2 038 + 2*C. 


En un estudio de tiempos de vida de componentes electró- 
nicos, una muestra aleatoria de 400 componentes es evalua- 
do hasta que dejan de funcionar. La media muestral de los 
tiempos de vida era de 370 horas y la desviación estándar 
era de 650 horas. Verdadero o falso: 


a) Un intervalo de confianza de 95% aproximado para la 
media de los tiempos de vida de este tipo de componen- 
te es de 306.3 a 433.7 horas. 


b) Aproximadamente el 95% de los componentes de la 
muestra tenía tiempos de vida entre 306.3 y 433.7 horas. 


c) Si alguien toma una muestra aleatoria de 400 compo- 
nentes, divide la desviación estándar muestral de sus 
tiempos de vida entre 20, y después suma y resta esa 
cantidad a la media muestral, existe una posibilidad de 
68% de que el intervalo así construido contenga la me- 
dia del tiempo de vida de este tipo de componente. 


d) La tabla z no se puede usar para construir intervalos de 
confianza aquí, porque los tiempos de vida de los com- 
ponentes no siguen la curva normal. 


e) ¿Aproximadamente 68% de los componentes tenía 
tiempos de vida en el intervalo 370 + 650 horas? 
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17. 


18. 


19. 


CAPÍTULO 5 Intervalos de confianza 


La temperatura de cierta solución se calcula tomando mu- 
chas mediciones independientes y determinando el prome- 
dio de ellas. El cálculo aproximado es de 37%C y la 
incertidumbre (desviación estándar) en esta estimación es 
0-19C: 


a) Determine un intervalo de confianza de 95% para la 
temperatura. 


b) ¿Cuál es el nivel de confianza del intervalo 37 + 0.1%C? 


c) Si sólo se había hecho una pequeña cantidad de medi- 
ciones independientes, ¿qué suposición adicional sería 
necesaria para calcular un intervalo de confianza? 


d) Haciendo la suposición adicional, calcule un intervalo 
de confianza de 95% para la temperatura si hubieran he- 
cho diez mediciones. 


Cajas de clavos contienen 100 clavos cada una. Se extrae 
una muestra de diez cajas, y cada una de las cajas es pesada. 
El promedio del peso es de 1 500 g y la desviación estándar 
es de 5 g. Suponga que el peso de la caja misma es despre- 
ciable, por lo que todo el peso es atribuible a los clavos en 
la caja. 


a) Sea Maja la media del peso de una caja de clavos. Deter- 
mine un intervalo de confianza de 95% para Maja: 


b) Sea Metavo la media del peso de un clavo. Exprese Metavo 
en función de Maja: 


c) Determine un intervalo de confianza de 95% para Mayo: 


Sea X el número de eventos que se observa que ocurren en 
n unidades de tiempo o espacio, y suponga que X — Pois- 
son(111), donde A es la media del número de eventos que 
ocurren en una unidad de tiempo o espacio. Suponga que X 
es grande, por lo que X — N(nA, nA). Con los siguientes in- 
cisos del a) al d) se deduce un intervalo de confianza de ni- 
vel 100(1 — 0% para A. Después, en el inciso e), se le pide 
que aplique el resultado encontrado en el inciso d). 


a) Muestre que para una proporción 1 — a de todas las po- 
sibles muestras, X — zpOx <NRA<X + 2190 x. 


b) Sea 2. = X/n. Muestre que 977, = Gxín. 


c) Concluya que para una proporción 1 — « de todas las 
muestras posibles, A — zp <A<ATH Zap 0% 


d) Utilice el hecho de que 7; = Jn para deducir una ex- 
presión para un intervalo de confianza de nivel 100(1 — 


0)% para 2. 


e) Una muestra de 5 ml de cierta suspensión contiene 300 
partículas. Sea A la media del número de partículas por 
ml en la suspensión. Determine un intervalo de confian- 
za de 95% para 2. 


20. 


21. 


22. 


Es necesaria la respuesta al inciso d) del ejercicio 19 para la 
realización de este ejercicio. Un geólogo cuenta 64 partícu- 
las emitidas en un minuto por cierta roca radiactiva. 


a) Determine un intervalo de confianza de 95% para la ta- 
sa de emisiones en unidades de partículas por minuto. 


b) Después de cuatro minutos, se cuentan 256 partículas. 
Determine un intervalo de confianza de 95% para la ta- 
sa de emisiones en unidades de partículas por minuto. 


c) ¿Por cuántos minutos se debe contar los errores para que 
el intervalo de confianza de 95% especifique la tasa den- 
tro de una partícula por minuto? 


En un flujo de Couette, dos placas planas grandes caen una 
encima de otra, separadas por una capa fina de fluido. Si se 
aplica una fuerza de corte a la placa superior, la viscosidad 
del fluido también produce movimiento en la placa inferior. 
La velocidad V en la placa superior con respecto a la placa 
inferior está dada por V = 7h/pL, donde Tes la tensión de 
corte aplicada en la placa superior, h es el espesor de la ca- 
pa de fluido y yu es la viscosidad del fluido. 

Suponga que ¡u, h y Tson medidos por separado y que 
las mediciones no tienen sesgos y están distribuidas normal- 
mente. Los valores medidos son y = 1.6 Pa-s, h = 15 mm 
y T= 25 Pa. Las incertidumbres (desviaciones estándares) 
de estas mediciones son O”, = 0.05, 0, = 1.0 y 0,= 1.0. 


a) Utilice el método de la propagación del error para cal- 
cular V y su incertidumbre dy. 


b) Suponiendo que la estimación de V esté distribuida nor- 
malmente, determine un intervalo de confianza de 95% 
para V. 


c) Realice una simulación para determinar si es o no váli- 
do el intervalo de confianza encontrado en el inciso b). 


Una muestra de siete bloques de concreto tenía su fuerza de 
compresión medida en MPa. Los resultados fueron 

13676 14115 1318.7 1193.6 1 406.2 

1425.7  1572.4 

Diez mil muestras de estimación bootstrap se generaron a 
partir de estos datos, y las medias de la estimación bootstrap 
fueron arregladas en orden. Denotando a la media más pe- 
queña por Y, la segunda más pequeña por Y,, y así sucesi- 
vamente, siendo la más grande Yo 000 Suponga que 


Yo =1283.4, Ya =12834, Yio =12915, 
Yin =12915, Fs =13055, Yo =13055, 
Ysoo =1318.5, Yi =1318.5,  Yoso =1449.7, 
Yo so = 1449.7, Yorsp =1462.1,  Yoxs = 1462.1, 
Yo 00 = 1476.2, Yoo = 1476.2,  Yogsp = 1483.8 y 
Yo 951 = 1 483.8. 


a) 


b) 


c) 


d) 


Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 1, como se describe en la p. 358. 


Calcule un intervalo de confianza de estimación boots- 
trap de 95% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 


Calcule un intervalo de confianza de estimación boots- 
trap de 99% para la media de la fuerza compresiva, 
usando el método 1, como se describe en la p. 358. 


Calcule un intervalo de confianza de estimación boots- 
trap de 99% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 
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23. Con referencia al ejercicio 22. 


a) 


b) 


c) 


Genere 10 000 muestras de estimación bootstrap de los 
datos del ejercicio 22. Encuentre la media de estimación 
bootstrap en la muestra de los percentiles que se usan 
para calcular un intervalo de confianza de 99 por ciento. 


Calcule un intervalo de confianza de estimación boots- 
trap de 99% para la media de la fuerza compresiva, 
usando el método 1, como se describe en la p. 358. 


Calcule un intervalo de confianza de estimación boots- 
trap de 99% para la media de la fuerza compresiva, 
usando el método 2, como se describe en la p. 358. 


Capítulo 


Pruebas de hipótesis 


Introducción 


En el ejemplo 5.2 (sección 5.1) una muestra de 50 microperforadoras tenía un tiempo de vida 
promedio de X = 12.68 huecos perforados con una desviación estándar de s = 6.83. Supón- 
gase que la cuestión principal es responder si la media poblacional y de los tiempos de vida 
es o no mayor de 11. Esta cuestión se aborda cuando se examina el valor de la media mues- 
tral X. Se nota que X > 11, pero debido a la incertidumbre en X no se garantiza que 4 > 11. 
Nos gustaría conocer con qué certeza consideramos que u > 11. Un intervalo de confianza 
no es todo lo que se necesita. En el ejemplo 5.2 se calculó un intervalo de confianza de 95% 
para la media poblacional yu de (10.79, 14.57). Éste indica una confianza de 95% de que y es- 
tá entre 10.79 y 14.57. Pero el intervalo de confianza no indica directamente cuánta confian- 
za se tiene de que u > 11. 

El enunciado “y > 11” constituye una hipótesis acerca de la media poblacional 1. Con 
el propósito de determinar cómo se logra la certeza de que una hipótesis semejante es verda- 
dera se debe realizar una prueba de hipótesis. Esta última produce un número entre O y 1 que 
mide el grado de certeza que se puede tener de la validez de una hipótesis con respecto a una 
cantidad, como una media o proporción de la población. Lo anterior da como resultado que 
las pruebas de hipótesis estén estrechamente relacionadas con los intervalos de confianza. En 
general, siempre que se pueda calcular un intervalo de confianza, se puede realizar una prue- 
ba de hipótesis, y viceversa. 


6.1 Pruebas de hipótesis para la media poblacional 
con muestras grandes 
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Se inicia con un ejemplo. Cierto tipo de motor de automóvil emite una media de 100 mg de 
óxidos de nitrógeno (NO,) por segundo con 100 caballos de fuerza. Se ha propuesto una mo- 
dificación al diseño del motor para reducir las emisiones de NO,. El nuevo diseño se produ- 
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cirá si se demuestra que la media de su tasa de emisiones es menor de 100 mg/s. Se constru- 
ye y se prueba una muestra de 50 motores modificados. La media muestral de emisiones de 
NO, es de 92 mg/s, y la desviación estándar muestral es de 21 mg/s. 

La población, en este caso, consta de las tasas de emisiones de los motores que serían 
construidos si se fabricara este diseño modificado. Si no hubiera incertidumbre en la media 
muestral, entonces se podría concluir que la modificación reduciría las emisiones de 100 a 92 
mg/s. Por supuesto, hay incertidumbre en la media muestral. La media poblacional en reali- 
dad será poco mayor o menor de 92. 

Los fabricantes están preocupados de que los motores modificados no puedan reducir 
todas las emisiones; es decir, que la media poblacional pudiera ser 100 o mayor. Quieren sa- 
ber si esta preocupación está justificada. La pregunta, por tanto, es: ¿Es factible que esta 
muestra, con media de 92, pudiera provenir de una población cuya media es 100 o mayor? 

Éste es el tipo de preguntas que las pruebas de hipótesis están diseñadas para respon- 
der, y ahora se construirá una prueba de hipótesis para responderla. Se ha observado una 
muestra con media 92. Hay dos interpretaciones posibles de esta observación: 


1. La media poblacional es realmente mayor que o igual a 100, y la media muestral es menor 
que ésta sólo debido a la variación aleatoria de la media poblacional. Por tanto, las emisio- 
nes no bajarán si el nuevo diseño de producciones produce, y la muestra es engañosa. 

2. La media poblacional es en realidad menor que 100, y la media muestral refleja este he- 
cho. Por tanto, la muestra representa una diferencia verdadera que se puede esperar si el 
nuevo diseño se fabrica. 


Estas dos explicaciones tienen nombres comunes. La primera se llama hipótesis nula. En la 
mayoría de las situaciones, la hipótesis nula establece que el efecto que indica la muestra es 
atribuible solamente a la variación aleatoria entre la muestra y la población. La segunda se de- 
nomina hipótesis alternativa. Esta hipótesis alternativa establece que el efecto que indica la 
muestra es verdadero, ya que representa a toda la población. 

En este ejemplo, los fabricantes de motores están preocupados de que la hipótesis nula 
pudiera ser verdadera. Una prueba de hipótesis asigna una medida cuantitativa a la factibili- 
dad de la hipótesis nula. Después de realizar una prueba de hipótesis, se podría decir a los fa- 
bricantes, en términos numéricos, qué tan valida es su preocupación. 

Para hacer las cosas más precisas, todo se expresa mediante símbolos. La hipótesis nu- 
la se denota con Hp. La hipótesis alternativa se denota mediante H,. Como es usual, la media 
poblacional es y. Por tanto, se tiene, 


Hy:p=100 contra H¡:m< 100 


Esencialmente, para realizar una prueba de hipótesis se pone la hipótesis nula en juicio. Se 
empieza suponiendo que A, es verdadera, de la misma manera como se empieza un juicio ba- 
jo el supuesto de que un acusado es inocente. La muestra aleatoria proporciona la evidencia. 
La prueba de hipótesis implica medir la fuerza del desacuerdo entre la muestra y A, para pro- 
ducir un número entre O y 1, llamado P-valor. Éste mide la factibilidad de H,. Entre menor 
sea el P-valor, más fuerte será la evidencia en contra de HA. Si el P-valor es suficientemente 
pequeño, se puede estar dispuesto a abandonar la suposición de que A, es verdadera y creer, 
en su lugar, que A; es verdadera. Lo anterior se llama rechazar la hipótesis nula. 
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CAPÍTULO 6 Pruebas de hipótesis 


En este ejemplo, sean X,, ..., Xzy las tasas de emisiones medidas de los 50 motores de 
la muestra. El valor observado de la media muestral es X = 92. También se necesitará cono- 
cer la desviación estándar muestral, que es s = 21. Se debe evaluar la factibilidad de Ap, que 
dice que la media poblacional es de 100 o mayor, dado que se ha observado una muestra de 
esta población, cuya media es solamente 92. Dicho procedimiento se realizará en dos pasos, 
de la siguiente manera: 


1. Se calculará a la distribución de X bajo el supuesto de que H, es verdadera. Esta distri- 
bución se llama distribución nula de X. 

2. Se calculará el P-valor. Éste es la probabilidad, bajo el supuesto que H, sea verdadera, de 
observar un valor de X, cuyo desacuerdo con H, sea al menos tan grande como el valor ob- 
servado de 92. 


Para realizar el paso 1, observe que X es la media de una muestra grande, así que el teo- 
rema del límite central especifica que proviene de una distribución normal, cuya media es u 
y Su varianza es 907/50, donde 0 es la varianza poblacional y 50 el tamaño de muestra. Se de- 
ben especificar los valores para uu y para a con el fin de determinar la distribución nula. En 
virtud de que se está suponiendo que A, es verdadera, se supone que yu = 100. Esto último 
no proporciona un valor específico para u. Se toma como el valor supuesto para u el valor 
más cercano a la hipótesis alternativa H,, por razones que se explicarán posteriormente en es- 
ta sección. Por tanto, se supone que yu = 100. No se conoce la desviación estándar poblacio- 
nal d. Sin embargo, debido a que la muestra es grande, se puede aproximar a a con la 
desviación estándar muestral s = 21. Por tanto, se ha determinado que bajo Hp, X tiene una 
distribución normal con media 100 y desviación estándar 21/4/50 = 2.97. La distribución 
nula es X — N(100, 2.977). 

Ahora se está listo para el paso 2. La figura 6.1 muestra la distribución nula. El núme- 
ro 92 indica el punto de la distribución correspondiente al valor observado de X. ¿Qué tan fac- 
tible es que un número muestreado de esta distribución sea tan pequeño como 92? Lo anterior 
se mide con el P-valor. Éste constituye la probabilidad de que un número extraído de la dis- 
tribución nula esté en desacuerdo con A, al menos tan intensamente como el valor observado 
de X que de 92. Dado que H, especifica que la media de X es mayor que o igual a 100, los 
valores menores de 92 están en desacuerdo mayor con A. Por tanto, el P-valor es la proba- 
bilidad de que un número extraído de una distribución N(100, 2.97”) sea menor o igual a 92. 
Esta probabilidad se determina al calcular el puntaje z: 


pa 5 EN 


De la tabla z, la probabilidad de que una variable aleatoria normal estándar z sea menor 
que o igual a —2.69 es 0.0036. El P-valor para esta prueba es 0.0036. 

Como promete, el P-valor proporciona una medida cuantitativa de la factibilidad de H.. 
¿Pero cómo se interpreta esta cantidad? La interpretación adecuada es algo sutil. El P-valor 
indica que si A, fuera verdadera, la probabilidad de extraer una muestra cuya media esté tan 
lejos de A¿ como el valor observado de 92 es solamente 0.0036. Por tanto, es posible una de 
las siguientes dos conclusiones: 
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m  Apes falsa. 

mM A,es verdadera, lo que implica que de todas las muestras que pudieron haber extraído, 
solamente el 0.36% tiene una media igual o más pequeña que la muestra que en reali- 
dad se extrajo. En otras palabras, la media muestral está en 0.36% más extremo de su 
distribución. 


P =0.0036 


92 100 


FIGURA 6.1 La distribución nula de X es N(100, 2.972). Por tanto, si H, es verdadera, la 
probabilidad de que X tome un valor tan extremo o más extremo que el valor observado de 
92 es 0.0036. Éste es el P-valor. 


En la práctica, los eventos en el 0.36% más extremo de sus distribuciones muy raramente ocu- 
rren. Por tanto, se rechaza Hy y se concluye que los nuevos motores tendrán emisiones menores. 

La hipótesis nula en este caso especifica solamente que u = 100. Suponiendo que A, 
es verdadera, ¿por qué se eligió el valor 4 = 100, que es el más cercano a H,? Para dar una 
prueba justa a la Ay, se debe evaluar en su forma más factible. El valor más factible para ¡u, 
suponiendo que HA, sea verdadera, es el valor más cercano a A. Para observar lo anterior, vea 
la figura 6.1. Suponga que se ha elegido un valor para 1 mayor a 100 para representar a Ho. 
Entonces la distribución nula tendría que estar corrida a la derecha. Esto último causaría que 
la media muestral de 92 esté aún más lejos en la cola. Entonces el P-valor tendría que ser aún 
menor. Por tanto, entre los valores de yu consistentes con Hy, el más cercano a H, tiene el 
P-valor mayor, y, por tanto, es el más factible. Por esta razón, cuando se supone que HA es 
verdadera, siempre se utiliza el valor del parámetro más cercano a H, cuando se realiza una 
prueba de hipótesis. 

Es natural preguntar qué tan pequeño debe ser el P-valor con la finalidad de rechazar 
A,. Algunas personas usan la “regla del 5%”; ellas rechazan H, si P < 0.05. Sin embargo, no 
hay ninguna justificación científica para ésta o cualquier otra regla. Esta cuestión se analiza 
más profundamente en la sección 6.2. 

Observe que dicho método usa el teorema del límite central. Por eso para que este mé- 
todo sea válido, el tamaño muestral debe ser razonablemente grande, de 30 o mayor. En la 
sección 6.4 se presentan las pruebas de hipótesis que algunas veces son válidas para muestras 
pequeñas. 

Finalmente, observe que el cálculo del P-valor se hizo al calcular un puntaje z. Por tan- 
to, este puntaje se llama estadístico de prueba. Una prueba que usa un puntaje z como un es- 
tadístico de prueba se denomina prueba z. 

Hay muchas clases de pruebas de hipótesis. Todas siguen una serie básica de pasos, que 
se ilustran en el cuadro de la página siguiente. 
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Pasos para la realización de una prueba de hipótesis 


a 


. Defina H, y H.. 

. Suponga que HA, es verdadera. 

3. Calcule un estadístico de prueba. Éste constituye un estadístico que se usa para 
evaluar la fuerza de la evidencia en contra de Ho. 

4. Calcule el P-valor del estadístico de prueba. El P-valor es la probabilidad, supo- 

niendo que A, es verdadera, de que el estadístico de prueba tenga un valor cuya 

diferencia con HA, sea tan grande o mayor que el realmente observado. El P-valor 

también se llama nivel de significancia observado. 


15) 


El artículo “Wear in Boundary Lubrication” (S. Hsu, R. Munro y M. Shen, en Journal of En- 
gineering Tribology, 2002:427-441) analiza algunos experimentos que implican diferentes lu- 
bricantes. En un experimento, 45 bolas de acero, lubricadas con parafina purificada, estaban 
sujetas a una carga de 40 kg a 600 rpm durante 60 minutos. El promedio de desgaste, medi- 
do por la reducción en el diámetro, era de 673.2 um, y la desviación estándar era de 14.9 um. 
Suponga que la especificación para un lubricante es que la media del desgaste sea menor de 
675 ym. Determine un P-valor para probar Hp: 4 = 675 contra H;: y < 675. 


Solución 

Primero se traduce el problema al lenguaje estadístico. Se tiene una muestra aleatoria simple 
Xi... , Xys de diámetros de desgaste. La media muestral y la desviación estándar son X = 
673.2 y s = 14.9. La media poblacional es desconocida y se denota con u. Antes de entrar a 
la construcción de la prueba, se indicará nuevamente que la idea básica es la incertidumbre en la 
media muestral. Si no hubiera incertidumbre se concluiría que el lubricante satisfaría la espe- 
cificación, ya que 673.2 < 675. La cuestión es si la incertidumbre en la media muestral es su- 
ficientemente grande como para que pudiera ser factible que la media poblacional fuera tan 
grande como 675. 

Para realizar la prueba de hipótesis se siguen los pasos anteriores. La hipótesis nula es 
que el lubricante no satisface la especificación, y que la diferencia entre la media muestral de 
673.2 y 675 es consecuencia de la aleatoriedad. La hipótesis alternativa es que el lubricante 
efectivamente satisface la especificación. 

Se supone que A, es verdadera, ya que la muestra se extrajo de una población con me- 
dia q = 675 (el valor más cercano a HA). Se calcula la desviación estándar poblacional a con 
la desviación estándar muestral s = 14.9. La prueba está basada en X. Bajo Hp, X proviene de 
una población normal con media 675 y desviación estándar 14.9/4/45 = 2.22. El P-valor es 
la probabilidad de observar una media muestral menor o igual a 673.2. El estadístico de prue- 
ba es el puntaje z, que es 


_ 673.2 675 


= 0.81 
2.22 mee 
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El P-valor es 0.209 (véase la figura 6.2). Por tanto, si A, es verdadera, hay una proba- 
bilidad de 20.9% de observar una muestra cuyo desacuerdo con HA, es al menos tan grande co- 
mo la que en realidad fue observada. Puesto que 0.209 no es una probabilidad muy pequeña, 
H¿no se rechaza. En vez de esto último, se concluye que H, es factible. Los datos no mues- 
tran que el lubricante satisfaga la especificación. Observe que no se está concluyendo que la 
HA, sea verdadera, solamente que es factible. En la sección 6.2 se analizará esta diferencia con 
mayor detalle. 


P =0.209 


| 
673.2 675 
z=-—0.81 


FIGURA 6.2 La distribución nula de X es N(675, 2.222). Por tanto, si H, es verdadera, la 
probabilidad que X tome un valor tan extremo o más extremo que el valor observado de 
673.2 es 0.209. Éste es el P-valor. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 
plo 6.1. 


One-Sample Z: Wear 


Test of mu = 6/5 vs < 6/5 
The assumed standard deviation = 14.9 


95% 

Upper 
Variable N Mean StDev SE Mean Bound Zl Pp 
Wear 45 673.200 14.9 2.221 676.853 -—0.81 0.209 


El resultado establece la hipótesis nula como u = 675 en vez de uy = 675. Esto último 
refleja que para construir la distribución nula se utilizó el valor ju = 675. La cantidad “SE 
Mean” representa la desviación estándar de X, calculado con s In. El resultado también pro- 
porciona un límite superior de confianza de 95% para pu. 

En los ejemplos anteriores, la hipótesis nula especifica que la media poblacional era 
menor que o igual a algo, o mayor que o igual a algo. En algunos casos, una hipótesis nula 
especifica que la media poblacional es igual a un valor específico. El ejemplo 6.2 ilustra el 
caso. 


Se está calibrando una balanza al pesar una pesa de prueba de 1 000 g 60 veces. Las 60 lec- 
turas de la balanza tienen una media de 1 000.6 g y desviación estándar de 2 g. Determine el 
P-valor para la prueba Hp: 4 = 1 000 contra A;¡: y + 1 000. 
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Solución 

Sea y la media poblacional de las lecturas. La hipótesis nula dice que la balanza está calibra- 
da, por lo que la media poblacional yu es igual al peso verdadero de 1 000 g, y la diferencia 
entre la media muestral de las lecturas y el peso verdadero es atribuible completamente al as- 
pecto aleatorio. La hipótesis alternativa dice que la balanza no está calibrada. 

En este ejemplo la hipótesis nula especifica que y es igual a un valor específico, en lu- 
gar de ser mayor o igual que o menor o igual que un valor específico. Por esta razón, los va- 
lores de X, que son mucho mayores o mucho menores que ¡1, proporcionarán evidencia en 
contra de H,. En los ejemplos anteriores, sólo los valores de X en un lado de yu proporcionan 
evidencia en contra de H,. 

Se supone que A, es verdadera, y que, por tanto, las lecturas de la muestra se extraje- 
ron de una población con media u = 1 000. La desviación estándar poblacional d se aproxi- 
ma con s = 2. La distribución nula de X es normal con media de 1 000 y desviación estándar 
2/60 = 0.258. El puntaje z del valor observado X = 1 000.6 es 


1 000.6 — 
O 
0.258 


Dado que H, especifica que y = 1 000, las regiones en ambas colas de la curva están 
en mayor desacuerdo con H, que el valor observado de 1 000.6. El P-valor es la suma de las 
áreas de las dos colas, que es 0.0204 (véase la figura 6.3). Por tanto, si A, es verdadera, la 
probabilidad de un resultado mayor o igual que el valor observado es sólo de 0.0204. Las evi- 
dencias en contra de A, son muy fuertes. Sería prudente rechazar H, y recalibrar la balanza. 


0.0102 0.0102 
] 
999.4 1 000 1 000.6 
2==2,32 z.=2.,32 


FIGURA 6.3 La distribución nula de X es N(1 000, 0.258?). Por lo que si H, es verdade- 
ra, la probabilidad de que X tome un valor tan extremo o más extremo que el valor obser- 
vado de 1 000.6 es 0.0204. Éste es el P-valor. 


Cuando H, especifica un solo valor para y, como en el ejemplo 6.2, ambas colas con- 
tribuyen al P-valor, y se dice que la prueba es una prueba de dos lados o de dos colas. Cuan- 
do A, sólo especifica que ju es mayor o igual que, o menor que o igual a un valor, sólo 
contribuye una cola al P-valor, y la prueba se llama de un lado o de una cola. 

Se concluye esta sección con el resumen del procedimiento utilizado para realizar una 
prueba de hipótesis para la media poblacional con muestras grandes. 
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Sea X,,..., X, una muestra grande (por ejemplo, n > 30) de una población con la 
media uu y desviación estándar dí. 
Para probar una hipótesis nula de la forma Hy: 4 < y Ho: Hp = Mo, O Hp: UU = Mo: 


X — Ho 


0//n 


EM Calcule el puntaje z: z = 


Hipótesis alternativa 


A: 4 > Ho 
HA: p< Ho 
Hp % po 


Si a es desconocida se puede aproximar con s. 


E Calcule el P-valor. Éste constituye un área bajo la curva normal, que depende de la 
hipótesis alternativa de la siguiente manera: 


Suma de áreas en las colas correspondientes a z y —Z 


P-valor 


Área a la derecha de z 
Área a la izquierda de z 


Ejercicios para la sección 6.1 


1. Recientemente muchas compañías han experimentado con 
las “telecomunicaciones”, al permitir que sus empleados 
trabajen en su casa en sus computadoras. Entre otros facto- 
res, se supone que la telecomunicación reduce las faltas por 
enfermedad. Suponga que en una compañía se sabe que en 
años pasados los empleados faltaron una media de 5.4 días 
por enfermedad. Este año la compañía introduce las teleco- 3 
municaciones. La dirección elige una muestra aleatoria sim- 
ple de 80 empleados para estudiarlos en detalle, y, al final 
del año, éstos promedian 4.5 días de faltas por enfermedad 
con desviación estándar de 2.7 días. Sea qu la media del nú- 
mero de días de faltas por enfermedad para todos los em- 
pleados de la compañía. 


a) Determine el P-valor para probar Ay: 1 = 5.4 contra H;: 
p< 5.4. 


b) Ya sea que la media del número de días de faltas por en- 
fermedad haya disminuido desde la introducción de las 
telecomunicaciones, o que la muestra estáenel____% 
más extremo de esta distribución. 


2. Una muestra aleatoria simple consta de 65 longitudes de 


alambre de piano que se probaron para la cantidad de alar- 4. 


gamiento bajo una carga de 30 N. El alargamiento prome- 
dio para los 65 alambres era de 1.102 mm, y la desviación 
estándar, de 0.020 mm. Sea y la media del alargamiento pa- 
ra todas las unidades de alambre de piano. 


a) Determine el P-valor para probar Ap: 4 <= 1.1 contra Hy: 
> 11 


b) Ya sea que la media del alargamiento para este tipo de 
alambre sea mayor que 1.1 mm, o la media muestral es- 
tá en % más extremo de esta distribución. 


. El artículo “Evaluation of Mobile Mapping Systems for 


Roadway Data Collection” (H. Karimi, A. Khattak y J. 
Hummer, en Journal of Computing in Civil Engineering, 
2000:168-173) describe un sistema para medir a distancia 
elementos de avenidas, como el ancho de los carriles y las 
alturas de las señales de tránsito. Para una muestra de 160 
de esos elementos, el error promedio (en porcentaje) en las 
mediciones era de 1.90, con desviación estándar de 21.20. 
Sea y la media del error en este tipo de medición. 


a) Determine el P-valor para probar Hp: 4 = 0 contra H;: 
pA0. 


b) Ya sea que la media del error para este tipo de medición 
es diferente a cero, o que la muestra esté en % 
más extremo de su distribución. 


Un inspector midió el volumen de llenado de una muestra 
aleatoria simple de 100 latas de jugo cuya etiqueta afirma- 
ba que contenían 12 oz. La muestra tenía una media de vo- 
lumen de 11.98 oz y desviación estándar de 0.19 oz. Sea y la 
media del volumen de llenado para todas las latas de jugo 
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recientemente llenadas con esta máquina. El inspector pro- 
bará Hp: Hp = 12 contra H;: up + 12. 


a) Determine el P-valor. 


b) ¿Piensa que es factible que la media del volumen de lle- 
nado es de 12 oz? Explique su razonamiento. 


. Cuando está operando adecuadamente, una planta química 
tiene una media de producción diaria de cuando menos 740 
toneladas. La producción se mide en una muestra aleatoria 
simple de 60 días. La muestra tenía una media de 715 tone- 
ladas/día y desviación estándar de 24 toneladas/día. Sea yu 
la media de la producción diaria de la planta. Un ingeniero 
prueba que Aj: 4 = 740 contra H¡: qH < 740. 


a) Determine el P-valor. 


b) ¿Piensa que es factible que la planta esté operando ade- 
cuadamente o está convencido de que la planta no fun- 
ciona en forma adecuada? Explique su razonamiento. 


. En un proceso de fabricación de placas de silicio cubiertas 
con tungsteno la resistencia objetivo para una placa es de 85 
mO. En una muestra aleatoria simple de 50 placas, la me- 
dia de la resistencia de la muestra era de 84.8 de m2, y la 
desviación estándar, 0.5 m4. Sea y la media de la resisten- 
cia de las placas fabricadas mediante este proceso. Un inge- 
niero de control de calidad prueba que Hp: 4 = 85 contra 
H;: pu 4 85. 


a) Determine el P-valor. 


b) ¿Piensa que es factible que la media esté en el objetivo, 
o está convencido de que la media no está en el objeti- 
vo? Explique su razonamiento. 


. Un filtro de aire ultrabajo de partículas se utiliza para man- 
tener uniforme el flujo de aire en áreas de producción en 
una habitación limpia. Ahí la media de la velocidad del aire 
debe ser al menos de 40 cm/s. Cierto distribuidor probó una 
muestra aleatoria simple de 58 filtros. La media de la veloci- 
dad de la muestra era de 39.6 cm/s, con desviación estándar 
de 7 cm/s. Sea y la media de la velocidad del aire obtenida 
por filtros suministrados por este distribuidor. Se hace una 
prueba de Ay: 4 = 40 contra H;¡: y < 40. 


a) Determine el P-valor. 


10. 


11. 


b) ¿Piensa que es factible que la media de velocidad es de 
al menos 40 cm/s, o está convencido de que la media es 
menor de 40 cm/s? Explique su razonamiento. 


Se está preparando una nueva mezcla de concreto con el fin 
de proporcionar una fuerza compresiva adecuada para blo- 
ques de concreto. La especificación para una aplicación de- 
terminada pide que los bloques tengan una media de la 
fuerza compresiva ¡u mayor de 1 350 kPa. Se produce y se 
prueba una muestra de 100 bloques. Su media de fuerza 
compresiva es de 1 356 kPa, y su desviación estándar, de 70 
kPa. Se hace una prueba de Hp: uy < 1 350 contra H¡: pH > 
1 350. 


a) Determine el P-valor. 


b) ¿Piensa que es factible que los bloques no satisfagan la 
especificación, o está convencido de que sí lo hacen? 
Explique su razonamiento. 


Complete el enunciado: Si la hipótesis nula es A,: up <= 5, 
entonces la media de X bajo la distribución nula es 


Do0 
ii) S 
¡ii) Cualquier número menor o igual que 5. 


iv) No se puede decir a menos que se conozca H,. 


Complete el enunciado: en una prueba de Ay: 4 = 10 con- 
tra H,: p< 10, la media muestral fue de X = 8 y el P-va- 
lor era de 0.04. Esto significa que si 4 = 10, y el 
experimento se repitiera 100 veces, se esperaría obtener un 


valor de X de 8 o menor aproximadamente veces. 


D 8 
id) 0.8 
iii) 4 
iv) 0.04 
v) 80 


Un ingeniero toma gran número de mediciones indepen- 
dientes de la longitud de un componente y obtiene X = 5.2 
mm y dz = 0.1 mm. Utilice esta información para encontrar 
el P-valor que pruebe que Ay: 4 = 5.0 contra H;: y + 5.0. 


6.2 Concluir a partir de las pruebas de hipótesis 377 


12. El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para una media poblacional y. 


One-Sample Z: X 


Test of mu = 73.5 vs not = 73.5 
The assumed standard deviation = 2.3634 


Variable N Mean StDev SE Mean 95% Cl Z P 
X 145 73.2461 2.3634 0.1963 (72.8614, 73.6308) -1.29 0.196 


a) ¿Es ésta una prueba de una cola o de dos colas? 

b) ¿Cuál es la hipótesis nula? 

Cc) ¿Cuál es el P-valor? 

d) Utilice el resultado y una tabla adecuada para calcular el P-valor para la prueba de AH: 4 = 73.6 contra A: 4 < 73.6 


e) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 99% para yu. 


13. El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para una media poblacional yu. Faltan 
algunos de los números. Complete los números del (a) al (c). 


One-Sample Z: X 


Test of mu = 3.5 vs > 3.5 
The assumed standard deviation = 2.00819 


95% 

Lower 
Variable N Mean StDev SE Mean Bound Z Pp 
X 87 4.07114 2.00819 (a) 3.71700 (b) (c) 


6.2 Concluir a partir de las pruebas de hipótesis 


Se revisarán con más detalle las conclusiones obtenidas en los ejemplos 6.1 y 6.2 (de la sec- 
ción 6.1). En el ejemplo 6.2 se rechazó Hp; en otras palabras, se concluyó que H, era falsa. 
En el ejemplo 6.1 A¿no se rechazó. Sin embargo, tampoco se concluyó que A, fuera verda- 
dera. Sólo se puede concluir que A, es factible. 

En efecto, sólo se pueden tener dos conclusiones en una prueba de hipótesis: que H, es 
falsa o que A, es factible. En particular, nunca se puede llegar a la conclusión de que H, es ver- 
dadera. Para comprender por qué, piense nuevamente en el ejemplo 6.1. La media muestral 
era X = 673.2 y la hipótesis nula era 4 = 675. La conclusión era que 673.2 está suficiente- 
mente cerca de 675, por lo que la hipótesis nula podría ser verdadera. Pero una media mues- 
tral de 673.2 obviamente no conduce a que se concluya que u = 675 es verdadera, ya que 
673.2 es menor que 675. Éste es un caso típico en muchas situaciones de interés. El estadís- 
tico de prueba es consistente con la hipótesis alternativa y está un poco en desacuerdo con la 
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nula. La única cuestión es si el nivel de desacuerdo medido con el P-valor es lo suficiente- 
mente grande para presentar la hipótesis nula como no factible. 

¿Cómo se sabe cuándo rechazar A¿? Entre menor sea el P-valor, menos factible es H.. 
Una regla general consiste en dibujar una línea en el 5%. De acuerdo con esta regla, si P = 
0.05, A, se rechaza; de otra manera, H, no se rechaza. Efectivamente, no hay una línea que 
divida con nitidez las evidencias concluyentes en contra de H, y las evidencias no concluyen- 
tes, así como no hay una línea que divida nítidamente el clima caluroso y el frío. Así que aun- 
que esta regla general es conveniente, no tiene ninguna justificación científica verdadera. 


Mi Entre menor sea el P-valor, se puede tener más certeza de que H, es falsa. 


mM Entre mayor sea el P-valor, es más factible A, pero nunca se puede tener la certe- 
za de que H, sea verdadera. 


Mi Una regla general indica rechazar H, cada vez que P <= 0.05. Aunque esta regla es 
conveniente, no tiene ninguna base científica. 


Significancia estadística 


Cada vez que el P-valor es menor que un umbral específico, el resultado indica que es “sig- 
nificativo estadísticamente” a ese nivel. Por lo que, por ejemplo, si P <= 0.05, el resultado es 
estadísticamente significativo a un nivel de 5%; si P = 0.01, el resultado es estadísticamente 
significativo a un nivel de 1%, y así sucesivamente. Si un resultado es estadísticamente signi- 
ficativo a un nivel de 1000%, también se puede decir que la hipótesis nula se “rechaza a un 
nivel de 1000:%”. 


Se realiza una prueba de la hipótesis nula A: 4 = 0. El P-valor da un resultado de 0.03. ¿Es 
el resultado estadísticamente significativo a un nivel de 10%? ¿ A un nivel de 5%? ¿A un ni- 
vel de 1%? ¿La hipótesis nula es rechazada a un nivel de 10%? ¿A un nivel de 5%? ¿A un 
nivel de 1%? 


Solución 

El resultado es estadísticamente significativo en cualquier nivel igual o mayor a 3%. Por tan- 
to, es estadísticamente significativo en los niveles 10 y 5%, pero no a un nivel de 1%. De for- 
ma semejante, se puede rechazar la hipótesis nula en cualquier nivel igual o mayor al 3%, así 
HA, se rechaza en los niveles 10 y 5%, pero no a un nivel de 1%. 


A veces las personas sólo informan que un resultado de prueba era estadísticamente sig- 
nificativo en un nivel específico, sin dar el P-valor. Por ejemplo, es común leer que un resul- 
tado era “estadísticamente significativo a un nivel de 5%” o “estadísticamente significativo 
(P < 0.05)”. Ésta es una mala práctica, por tres razones. Primera, no proporciona ninguna ma- 
nera de decir si el P-valor era sólo apenas menor que 0.05, o si era mucho menor. Segunda, 
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notificar que un resultado era estadísticamente significativo a un nivel de 5% implica que hay 
gran diferencia entre un P-valor justo abajo de 0.05 y uno justo arriba de 0.05, cuando efec- 
tivamente hay una diferencia pequeña. Tercera, un trabajo como éste no permite que los lec- 
tores decidan por ellos mismos si el P-valor es lo suficientemente pequeño para rechazar la 
hipótesis nula. Si un lector cree que la hipótesis nula no debe rechazarse a menos que P < 
0.01, entonces informar solamente que P < 0.05 no permite que el lector determine si se re- 
chaza o no H.. 

Notificar el P-valor proporciona mayor información acerca de la fuerza de la evidencia 
contra la hipótesis nula y permite que cada lector decida por sí mismo si se debe rechazar. Los 
resultados de software siempre muestran los P-valores que obtienen; éstos se deben incluir 
siempre que se notifican los resultados de una prueba de hipótesis. 


Sea q cualquier valor entre O y 1. Entonces, si P <= Q%. 


Ml Se dice que el resultado de la prueba es estadísticamente significativo a un nivel de 
1000%. 


m La hipótesis nula es rechazada a un nivel de 1000%. 


El Cuando se informa el resultado de una prueba de hipótesis, informe el P-valor, en 
lugar de sólo compararlo con el 5 o el 1%. 


El P-valor no es la probabilidad de que H, sea verdadera 


Como consecuencia de que P-valor es una probabilidad, y que los P-valores pequeños indi- 
can que A, es improbable que sea verdadera, es tentador pensar que el P-valor representa la 
probabilidad de que H, sea verdadera. Éste no es enfáticamente el caso. El concepto de pro- 
babilidad analizado aquí es útil solamente cuando se aplica a los resultados que pueden resul- 
tar en formas diferentes cuando se repiten experimentos. Ésta tiene sentido para definir el 
P-valor como la probabilidad de observar un valor extremo de un estadístico como X, ya que 
el valor de X podría ser diferente si el experimento se repitiera. Por otra parte, la hipótesis nula 
es o no verdadera. La verdad o falsedad de A no se puede cambiar mediante la repetición del 
experimento. No es, por tanto, correcto hablar de la “probabilidad” de que H, sea verdadera. 

En este momento se debe mencionar que hay un concepto de probabilidad, diferente del 
que se analiza en este libro, en el cual se puede calcular una probabilidad de que un enuncia- 
do, tal como que una hipótesis nula sea verdadera. Esta clase de probabilidad se llama proba- 
bilidad subjetiva, y es importante en la teoría de la estadística bayesiana. La clase de 
probabilidad que se analiza en este libro se llama probabilidad frecuentista. Una buena refe- 
rencia para estadística bayesiana es Lee (1997). 


Elija H¿ para responder la pregunta correcta 


Cuando se realiza una prueba de hipótesis es importante elegir adecuadamente H, y H, con 
el propósito de que los resultados de la prueba sean útiles para establecer una conclusión. Los 
ejemplos 6.4 y 6.5 muestran esto último. 


Ejemplo 


CAPÍTULO 6 Pruebas de hipótesis 


Las especificaciones para un tubo de agua piden una media de fuerza de ruptura ¡un mayor de 
2 000 lb por pie de longitud. Los ingenieros realizarán una prueba de hipótesis para determi- 
nar si se usa O no cierto tipo de tubo. Seleccionan una muestra aleatoria de secciones del tu- 
bo de un pie de longitud para medir sus fuerzas de ruptura y realizar una prueba de hipótesis. 
El tubo no se utilizará a menos que los ingenieros pueden concluir que 4 > 2 000. Suponga 
que se prueba A,: y < 2 000 contra A¡: 4 > 2 000. ¿Los ingenieros decidirán utilizar el tu- 
bo si se rechaza H¿? ¿Qué pasa si H, no es rechazada? 


Solución 

Si A, es rechazada, los ingenieros concluirán que 4 > 2 000 y utilizarán el tubo. Si A, no es 
rechazada, los ingenieros concluirán que uu podría ser menor o igual a 2 000, y no usarán el 
tubo. 


En el ejemplo 6.4 la acción de los ingenieros con respecto al uso del tubo diferirá de- 
pendiendo de si A, se rechaza o no. Por tanto, es útil realizar esta prueba, y A, y H, se han 
especificado correctamente. 


En el ejemplo 6.4, suponga que los ingenieros prueban que Ay: 4 = 2 000 contra A;: 1 < 2 000. 
¿Los ingenieros decidirán utilizar el tubo si se rechaza H¿? ¿Qué pasa si H, no es rechazada? 


Solución 

Si A, es rechazada, los ingenieros concluirán que u < 2 000 y no utilizarán el tubo. Si A, no 
es rechazada, los ingenieros llegarán a la conclusión de que u podría ser mayor o igual a 2 000, 
pero también podría no serlo, por lo que nuevamente no utilizarán el tubo. 


En el ejemplo 6.5, la acción con respecto al uso del tubo será la misma, no lo utiliza- 
rán, si A, es o no rechazada. No tiene sentido realizar esta prueba. Las hipótesis de Ay y H; 
no se han especificado correctamente. 

Nota final: En una prueba de una cola la igualdad siempre va con la hipótesis nula. Por 
tanto, si uy es el punto que divide H, de H,, se podría tener H,: 4 < pyo Ay: H = uy, pero 
nunca Hy: Hp < My 0 Hy: MU > uo. La razón para esto último consiste en que cuando se define 
la distribución nula A, se representa con el valor de ¡u más cercano a H;. Sin la igualdad, no 
hay un valor especificado por Ay que esté cercano a A;. Por tanto, la igualdad debe ir con Hp. 


Significancia estadística no es lo mismo que significancia práctica 


Cuando un resultado tiene un P-valor pequeño se dice que es “estadísticamente significativo”. 
En el uso cotidiano, la palabra significativo quiere decir “importante”. Resulta, por tanto, ten- 
tador pensar que los resultados estadísticamente significativos siempre deben ser importantes. 
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Éste no es el caso. A veces los resultados estadísticamente significativos no tienen importan- 
cia científica o práctica. Se mostrará esto último con un ejemplo. Suponga que en un proce- 
so con el que se fabrican fibras sintéticas se sabe que éstas tienen una fuerza de ruptura media 
de 50 N. Se ha desarrollado un nuevo proceso que requeriría instrumentar el rechazo de mu- 
cha maquinaria. En una muestra de mil fibras producidas por este nuevo método, el prome- 
dio de la fuerza de ruptura era de 50.1 N, y la desviación estándar, de 1 N. ¿Se puede concluir 
que el nuevo proceso produce fibras con una media mayor de la fuerza de ruptura? 

Para responder esta pregunta, sea yu la fuerza de ruptura media de las fibras producidas 
con el nuevo proceso. Se necesita probar H,: y < 50 contra H,: 4 > 50. De este modo, si 
se rechaza H, se llega a la conclusión de que el nuevo proceso es mejor. Bajo H,, la media 


muestral X tiene una distribución normal con una media de 50 y una desviación estándar de 
1/41 000 = 0.0316. El puntaje z es 


50.1 —50 
z2= —_——=3.16 
0.0316 


El P-valor es 0.0008. Ésta es una evidencia muy fuerte contra Hp. El nuevo proceso pro- 
duce fibras con una fuerza de ruptura media mayor. 

¿Qué conclusión práctica se debe extraer de este resultado? Con base en la prueba de 
hipótesis, se tiene la seguridad de que el nuevo proceso es mejor. ¿Valdría la pena instrumen- 
tar el nuevo proceso? Probablemente no. La razón es que la diferencia entre el proceso viejo 
y el nuevo, aunque estadísticamente muy significativa, es de sólo 0.1 N. Es improbable que 
esta diferencia sea lo suficientemente grande para ser importante. 

La lección que aquí se obtiene es que un resultado puede ser estadísticamente signifi- 
cativo sin ser lo suficientemente grande para tener importancia práctica. ¿Cómo puede ocu- 
rrir esto? Una diferencia es estadísticamente significativa cuando es grande comparada con su 
desviación estándar. En el ejemplo, una diferencia de 0.1 N era estadísticamente significati- 
va, ya que la desviación estándar era solamente de 0.0316 N. Cuando la desviación estándar 
es muy pequeña, aun una diferencia pequeña puede ser estadísticamente significativa. 

El P-valor no mide la significancia práctica. Lo que mide es el grado de confianza que 
se puede tener de que el valor verdadero es muy diferente del valor especificado por la hipó- 
tesis nula. Cuando el P-valor es pequeño, entonces se puede tener confianza de que el valor 
verdadero es en verdad muy diferente. Esto no necesariamente implica que la diferencia sea 
lo bastante grande para que tenga importancia práctica. 


Relación entre las pruebas de hipótesis 
y los intervalos de confianza 


Tanto los intervalos de confianza como las pruebas de hipótesis están dedicados a determinar 
los valores creíbles para una cantidad como una media poblacional y. En una prueba de hi- 
pótesis para una media poblacional y, se especifica un valor particular de y (la hipótesis nu- 
la) y se determina si ese valor es factible. En contraparte, un intervalo de confianza para una 
media poblacional yu se puede pensar como el conjunto de los valores de yu que satisfacen a 
un cierto criterio de factibilidad, especificado por el intervalo de confianza con un nivel de 
100(1 — 0%. Efectivamente, la relación entre los intervalos de confianza y las pruebas de hi- 
pótesis es muy cercana. 
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Para ser más específicos, los valores contenidos dentro de un intervalo de confianza de 
dos lados a nivel de 100(1 — ()%, son precisamente aquellos valores para los cuales el P-valor 
de una prueba de hipótesis de dos lados será mayor que «Y. Para ilustrar esto último, conside- 
re el ejemplo siguiente (presentado como el ejemplo 5.2 de la sección 5.1). La media mues- 
tral de los tiempos de vida de 50 microperforadoras era de X = 12.68 huecos perforados y la 
desviación estándar de s = 6.83. Haciendo ( igual a 0.05 (5%), el intervalo de confianza al 
95% para la media poblacional de los tiempos de vida yu se ha calculado de (10.79, 14.57). 
Suponga que se quiere probar la hipótesis de que y era igual a uno de los puntos finales del 
intervalo de confianza. Por ejemplo, considere probar que H, : 4 = 10.79 contra A: y + 
10.79. Bajo H,, el valor observado X = 12.68 proviene de una distribución normal con me- 
dia 10.79 y desviación estándar 6.83/450 = 0.9659. El puntaje z es (12.68 — 10.79)/0.9659 
= 1.96. Puesto que A, especifica que y es igual a 10.79, ambas colas contribuyen al P-valor, 
el cual es 0.05, y, por consiguiente, igual a O (véase la figura 6.4). 


0.025 ( 0.025 


] 
8.90 10.79 12.68 
z=-—1.96 z=1.96 


FIGURA 6.4 La media muestral X es igual a 12.68. Debido a que 10.79 es un punto final 
de un intervalo de confianza de 95% basado en X = 12.68, el P-valor para evaluar Hp: y 
= 10.79 es igual a 0.05. 


Ahora considere probar la hipótesis A,: 4 = 14.57 contra A¡: y + 14.57, donde 14.57 
representa el otro punto final del intervalo de confianza. Esta vez se obtendrá z = (12.68 — 
14.57)/0.9659 = —1.96, y nuevamente el P-valor es 0.05. Es fácil comprobar que si se elige 
cualquier valor de ¡uy en el intervalo (10.79, 14.57) y se prueba Ay: 4 = y contra A: Uy + Mo, 
el P-valor será mayor que 0.05. Por otra parte, si se elige uy < 10.79 o uy > 14.57, el P-valor 
será menor que 0.05. Por tanto, el intervalo de confianza de 95% consta precisamente de los 
valores de u cuyos P-valores son mayores que 0.05 en una prueba de hipótesis. En este sen- 
tido, el intervalo de confianza contiene todos los valores que son creíbles para la media po- 
blacional qu. 

Es fácil comprobar que un intervalo de confianza a un nivel de 100(1 — 0% de un só- 
lo lado consta de todos los valores para los cuales el P-valor en una prueba de una cola serían 
mayores de qx. Por ejemplo, con X = 12.68, s = 6.83 y n = 50, el límite inferior de confian- 
za de 95% para los tiempos de vida de las perforadoras es 11.09. Si uy > 11.09, entonces el 
P-valor para probar A: 4 <= uy será mayor de 0.05. De forma semejante, el límite superior 
de confianza de 95% para los tiempos de vida de las perforadoras es 14.27. Si uy < 14.27, 
entonces el P-valor para probar A: u = py será mayor que 0.05. 
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Ejercicios para la sección 6.2 


1. ¿Para qué P-valor es la hipótesis nula más factible, P = 0.5 ii) H, es definitivamente verdadera. 
o P = 0.05? iii) Hay una probabilidad de 50% de que H, sea verdadera. 


iv) H, es factible, y H, es falsa. 
2. Verdadero o falso: 
v) Tanto A¿ como H, son creíbles. 


a) Si se rechaza Ay, entonces se concluye que A, es falsa. 


b) Sino se rechaza H,, entonces se llega a la conclusión de 5. Verdadero o falso: Si P = 0.02, entonces 


que A, es verdadera. 


A e a) El resultado es estadísticamente significativo a un nivel 
c) Si se rechaza H¿, entonces se llega a la conclusión de 


de 5%. 
que A, es verdadera. 
] b) El resultado es estadísticamente significativo a un nivel 
d) Sino se rechaza H,, entonces se concluye que H, es falsa. de 1% 
O. 


3. Si P= 0.01, ¿cuál es la mejor conclusión? c) La hipótesis nula es rechazada a un nivel de 5%. 


d) La hipótesis nula es rechazada a un nivel de 1%. 
1) H,es definitivamente falsa. 


1i) Hy es definitivamente verdadera. 6. Una hipótesis nula es rechazada a un nivel de 5%. Verdade- 
iii) Hay probabilidad de 1% de que H, sea verdadera. ro o falso: 

iv) Hy podría ser verdadera, pero es improbable. Elle mórmea, 
v) Hy podría ser falsa, pero es improbable. 


vi) H, es factible. 


b) El P-valor es menor o igual a 5%. 


c) El resultado es estadísticamente significativo a un nivel 


de 5%. 
4. Si P = 0.50, ¿cuál es la mejor conclusión? il 
d) El resultado es estadísticamente significativo a un nivel 
1) H,es definitivamente falsa. de 10%. 


7. El siguiente resultado de MINITAB (mostrado por vez primera en el ejercicio 12 de la sección 6.1) presenta los resultados de 
una prueba de hipótesis para una media poblacional . 


One-Sample Z: X 


Test of mu = 73.5 vs not = 73.5 
The assumed standard deviation = 2.3634 


Variable N Mean StDev SE Mean 95% CI Zl Pp 
X 145 73.2461 2.3634 0.1963 (72.8614, 73.6308) -1.29 0.196 


a) ¿Puede HA, ser rechazada a un nivel de 5%? ¿Cómo justifica su respuesta? 


b) Alguien le pregunta si la hipótesis nula Ay: 4 = 73 contra A: 4 + 73 puede ser rechazada a un nivel de 5%. ¿Puede res- 
ponder sin hacer cálculos? ¿Cómo? 


8. Sea y el nivel de radiación al que un trabajador de esta área 9. En cada uno de los siguientes casos establezca la hipótesis 


se expone durante el transcurso de un año. La agencia de nula más adecuada, tomando en consideración la media po- 
protección ambiental ha establecido el nivel máximo de se- blacional y. 

guridad de la exposición en 5 rem por año. Si se realiza una 

prueba de hipótesis para determinar si un puesto de trabajo a) Se instalará un nuevo tipo de batería en marcapasos de 
es seguro, ¿cuál es la hipótesis nula más adecuada: Hp: 4 = corazón si se puede demostrar que tienen una media de las 


S, Hp: pH =5, 0 Hp: y = 5? Explique. duraciones mayor a ocho años. 
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10. 


11. 


12. 
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b) Se utilizará un nuevo material para fabricar neumáticos 
si se puede mostrar que la media de la duración de los 
neumáticos es al menos de sesenta mil millas. 


c) Un inspector de control de calidad recalibra un medidor 
de flujo si la media de la tasa de flujo difiere de 10 ml/s. 


Se recomienda la instalación de un dispositivo de disminu- 
ción de radón en cualquier casa donde la media de la con- 
centración de radón es de 4.0 picocuries por litro (pCi/l) o 
mayor, porque se ha pensado que a la larga esa exposición 
representa una dosis suficientemente grande que puede au- 
mentar el riesgo de cáncer. Se hicieron 75 mediciones en 
una casa específica. La media de las concentraciones era de 
3.72 pCi/l y la desviación estándar de 1.93 pCi/l. 


a) El inspector de casas que realizó la prueba informó que 
debido a que la media de las mediciones es menor de 4.0 
es innecesaria la disminución de radón. Explique por 
qué este razonamiento es incorrecto. 


b) Debido a motivos de salud, se recomienda la disminu- 
ción de radón siempre que sea factible que la concentra- 
ción media de radón pueda ser de 4.0 pCi/l o mayor. 
Establezca las hipótesis nula y alternativa adecuadas pa- 
ra determinar si la disminución de radón es adecuada. 


c) Calcule el P-valor. ¿Usted recomendaría la disminución 
de radón? Explique. 


Es deseable comprobar la calibración de una balanza pesan- 
do un peso patrón de 10 g 100 veces. Sea uu la media pobla- 
cional de lecturas en la balanza, por lo que esta última 
estará calibrada si 4 = 10. Se hace una prueba de hipótesis 
By: WM = 10 contra A: u + 10. Considere tres conclusiones 
posibles: (1) la balanza está calibrada. (ii) la balanza no es- 
tá calibrada. (111) la balanza podría estar calibrada. 


a) ¿Cuál de las tres conclusiones es mejor si A, es recha- 
zada? 


b) ¿Cuál de las tres conclusiones es mejor si Ay no es re- 
chazada? 


c) ¿Es posible realizar una prueba de hipótesis en una for- 
ma que sea posible demostrar concluyentemente que la 
balanza está calibrada? Explique. 


Se supone que una máquina que llena cajas de cereal está 
calibrada, por lo que la media del peso de llenado es de 12 
Oz. Sea u la media verdadera del peso de llenado. Suponga 
que en una prueba de hipótesis Ay: y = 12 contra H;: q + 
12, el P-valor es 0.30. 


a) ¿Se debe rechazar H¿ con base en esta prueba? Expli- 
que. 


13. 


14. 


15. 


16. 


17. 


b) ¿Puede concluir que la máquina está calibrada para pro- 
porcionar una media del peso de llenado de 12 oz? Ex- 
plique. 


Un método de aplicación de zinc para blindar acero se su- 
pone que produce una capa cuyo espesor medio no es ma- 
yor de 7 micras. Una inspectora de calidad mide el espesor 
de 36 unidades de las capas y prueba que H,: <= 7 contra 
H: 4 > 7. Obtiene un P-valor de 0.40. Dado que P > 0.05, 
concluye que la media del espesor está dentro de la especi- 
ficación. ¿Esta conclusión es correcta? Explique. 


Complete la respuesta: un intervalo de confianza al 95% pa- 
ra 4 es (1.2, 2.0). Con base en los datos a partir de los cua- 
les se construyó el intervalo de confianza, alguien quiere 
probar que Hp: 4 = 1.4 contra A;: y + 1.4. El P-valor será 


i) Mayor que 0.05 
ii) Menor que 0.05 
iii) Igual a 0.05 


Con referencia al ejercicio 14, ¿para qué hipótesis nula se- 
rá P = 0.05? 


D Hyp=12 
il Hyp=12 
ii) Ey p= 12 


Una científica calcula un intervalo de confianza del 90% de 
(4.38, 6.02). Con los mismos datos también calcula que un 
intervalo de confianza del 95% de (4.22, 6.18), y un inter- 
valo de confianza del 99% de (3.91, 6.49). Ahora quiere 
probar Hp: Hp = 4 contra HA: u + 4. Considerando el P-va- 
lor, ¿cuál de los siguientes enunciados es verdadero? 


dy P>0.10 
ii) 0.05 <P<0.10 
iñi) 0.01 <P. <0.05 
iv) P<0.01 


La fuerza de cierto tipo de caucho se prueba sujetando pe- 
dazos de éste a una prueba de desgaste. Para que el caucho 
sea aceptable, la media del peso 1 debe ser menor de 3.5 
mg. Muchos pedazos de caucho fueron curados en cierta 
manera mientras estaban sujetos a la prueba de desgaste. Un 
límite superior de confianza del 95% para la media del pe- 
so perdido que se calculó a partir de estos datos era de 3.45 
mg. Alguien sugiere utilizar estos datos para probar H,: u 
= 3.5 contra H¡: p < 3.5. 


a) ¿Es posible determinar a partir del límite de confianza si 
P < 0.05? Explique. 


18. 
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b) ¿Es posible determinar a partir del límite de confianza si 
P < 0.01? Explique. 


Una remesa de fibras no es aceptable si la fuerza de ruptu- 
ra media de las fibras es menor de 50 N. Se probó una gran 
muestra de fibras de esta remesa, y se calculó un límite in- 
ferior de confianza de 98% para la fuerza de ruptura media 
de 50.1 N. Alguien sugiere utilizar estos datos para probar 
la hipótesis Ay: 1 < 50 contra H;¡: q > 50. 


a) ¿Es posible determinar a partir del límite de confianza si 
P < 0.01? Explique. 


19. 


20. 
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b) ¿Es posible determinar a partir del límite de confianza si 
P < 0.05? Explique. 


Con referencia al ejercicio 17, se descubre que la media mues- 
tral utilizada para calcular el límite de confianza es X = 3.40. 
¿Es posible determinarla si P < 0.01? Explique. 


Con referencia al ejercicio 18, se descubre que la desvia- 
ción estándar muestral utilizada para calcular el intervalo de 
confianza es 5 N. ¿Es posible determinarla si P < 0.01? Ex- 
plique. 


6.3 Pruebas de hipótesis para la proporción poblacional 


Una proporción poblacional es simplemente una media poblacional para una población de O 
y 1: una población de Bernoulli. Por esta razón, las pruebas de hipótesis para proporciones son 
similares a las analizadas en la sección 6.1 para medias poblacionales. He aquí un ejemplo. 

Un proveedor de placas semiconductoras afirma que de todas las placas que suministra, 
sólo 10% son defectuosas. Se prueba una muestra de 400 placas, y 50 de ellas, 12.5%, pre- 
sentan defectos. ¿Se puede concluir que esta afirmación es falsa? 

Para realizar la prueba de hipótesis se procede en forma muy parecida a las que se ob- 
servaron en la sección 6.1. Lo que hace diferente este problema es que la muestra consiste de 


“LS 


éxitos y fracasos, con “éxito” se indica una placa defectuosa. Si la proporción poblacional de pla- 
cas defectuosas se denota mediante p, entonces la afirmación del proveedor es que p < 0.1. 
Dado que esta hipótesis se ocupa de una proporción poblacional, es natural basar la prueba en 
la proporción muestral p. Con base en la suposición razonable de que las placas se muestrean 
de manera independiente, y al usar el teorema del límite central, puesto que el tamaño mues- 


tral es grande, se obtiene que 


a = 
p=0 (o adn ») 
n 


(6.1) 


donde n es el tamaño de muestra, igual a 400. 

Se debe definir la hipótesis nula. La pregunta es si los datos permiten concluir que la 
afirmación del proveedor es falsa. Por tanto, la afirmación del proveedor, que es p = 0.1, de- 
be ser A,. Por otra parte, sería imposible probar la falsedad de la afirmación, sin que impor- 


tara lo que los datos indicaban. 


Las hipótesis nula y alternativa son 


Ho: Pp = 0.1 


contra H,:p>0.1 


Para realizar la prueba de hipótesis se supone que Ay es verdadera y se toma p = 0.1. Al sus- 
tituir p = 0.1 y n = 400 en la expresión (6.1) se obtiene la distribución nula de p: 


P=N(0.1, 2.25 x 107?) 
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La desviación estándar de p es 0; = v2.25 x 107% = 0.015. El valor observado de p es 
50/400 = 0.125. El puntaje z de p es 


_ 0.125—0.100 


q =161 
Ñ 0.015 


La tabla z indica que la probabilidad de que una variable aleatoria normal estándar tenga un 
valor mayor de 1.67 es 0.0475. El P-valor es, por tanto, 0.0475 (véase la figura 6.5). 


P =0.0475 


| 
0.100 0.125 
z=1.67 


FIGURA 6.5 La distribución nula de 5 es N(0.1, 0.0152). Por tanto, si HA, es verdadera, la 
probabilidad de que p tome un valor tan extremo o más extremo que el valor observado de 
0.125 es 0.0475. Éste es el P-valor. 


¿Qué se concluye acerca de Hp? Ya sea que la afirmación del proveedor sea falsa, o que 
se haya observado una muestra que sea tan extrema como las demás, que se podrían haber ex- 
traído 4.75% de las muestras. Tal muestra sería anormal, pero no muy improbable. Hay una 
razón para estar particularmente escéptico con respecto a la afirmación, pero tal vez no se de- 
be aún condenar al proveedor. Si es posible, sería una buena idea muestrear más placas. 

Observe que bajo la comúnmente utilizada regla práctica se rechazaría H, y se conde- 
naría al proveedor, debido a que P es menor que 0.05. Este ejemplo ilustra la debilidad de es- 
ta regla. Si usted hace los cálculos, encontrará que si sólo 49 de las placas de la muestra 
hubieran estado defectuosas en vez de 50, el P-valor se elevaría a 0.0668, y el proveedor es- 
taría salvado. Por tanto, el destino del proveedor depende del resultado de una sola placa de 
las 400. No tiene sentido marcar tal línea nítida. Es mejor sólo notificar el P-valor y esperar 
a tener más evidencias antes de obtener una conclusión final. 


El tamaño muestral debe ser grande 


La prueba descrita antes requiere que la proporción muestral esté normalmente distribuida. 
Esta suposición estará justificada siempre que npy > 10 y n(1 — pp) > 10, donde p, es la pro- 
porción poblacional que se especificó en la distribución nula. Entonces el puntaje z se puede 
utilizar como el estadístico de prueba, haciendo a ésta una prueba z. 


El artículo “Refinement of Gravimetric Geoid Using GPS and Leveling Data” (W. Thurston, 
en Journal of Surveying Engineering, 2000:27-56) presenta un método para medir las alturas 
ortométricas arriba del nivel del mar. Para una muestra de 1 225 puntos de partida, 926 dieron 
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resultados que están dentro del espíritu de la clase C nivelando los límites de tolerancia. ¿Se 
puede llegar a la conclusión de que este método produce resultados dentro de los límites de 
tolerancia más de 75% de las veces? 


Solución 
Sea p la probabilidad de que el método produzca un resultado dentro de los límites de tole- 
rancia. Las hipótesis nula y alternativa son: 


Ho: p £ 0.75 contra A: p > 0.75 


La proporción muestral es p = 926/1 225 = 0.7559. Bajo la hipótesis nula, p está distribui- 
do normalmente con media de 0.75 y desviación estándar /(0.75)1(1 — 0.75)/1225 = 
0.0124. El puntaje z es 


_ 0,7559 — 0.7500 
a 0.0124 


= 0.48 


El P-valor es 0.3156 (véase la figura 6.6). No se puede concluir que el método produzca bue- 
nos resultados más de 75% de las veces. 


P =0.3156 


] 
0.75 0.7559 
z=0.48 


FIGURA 6.6 La distribución nula de $ es N(0.75, 0.0124?). Por tanto, si H, es verdadera, 
la probabilidad de que p tome un valor mayor o igual que el valor observado de 0.7559 es 
0.3156. Éste es el P-valor. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 
plo 6.6. 


Test and CI for One Proportion: GPS 


Test of p = 0.75 vs p > 0.75 


95% 

Lower 
Variable X N Sample p Bound 1-Value P-Value 
GPS 926 1225 0.755918 0.735732 0.48 0.316 


El resultado contiene un límite inferior de confianza de 95%, así como el P-valor. Observe 
que este límite inferior se calculó mediante el método tradicional (la expresión 5.8 de la sec- 
ción 5.2 presenta la versión de dos lados de este método). 
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La relación con los intervalos de confianza para una proporción 


Un intervalo de confianza a un nivel de 100(1 — 0%)% contiene los valores correspondientes 
a un parámetro para el cual el P-valor de una prueba de hipótesis será mayor que «. Respec- 
to a los intervalos de confianza para la proporción presentados en la sección 5.2 y la prueba 
de hipótesis presentada aquí, este enunciado es aproximadamente verdadero. La razón de es- 
to es que los métodos presentados en la sección 5.2 son versiones ligeramente modificadas (y 
mucho más fáciles de calcular) de métodos de intervalos de confianza más complicados para 
los cuales el enunciado es verdadero. 


E Calcule el puntaje z: z = 


Hipótesis alternativa 


Sea X el número de éxitos en n ensayos independientes de Bernoulli, cada uno con 
probabilidad de éxito p; en otras palabras, sea X — Bin(n, p). 

Para probar una hipótesis nula de la forma Hoy: p < py, Ho: p = Po, O Ho: p = Po, 
suponiendo que tanto np como n(1 — pp) son mayores que 10: 


p= PO 
Vpo(— po)/n 


M Calcule el P-valor. Este último constituye un área bajo la curva normal, que de- 
pende de la hipótesis alternativa de la siguiente manera: 


H::p>Po Área a la derecha de z 
H:p<Po Área a la izquierda de z 
H:p*Po Suma de áreas en las colas correspondientes a z y —z 


P-valor 


Ejercicios para la sección 6.3 


1. Una muestra aleatoria de 300 componentes electrónicos fa- 


bricados mediante un proceso específico se muestrea y se 
encuentra que 25 están defectuosos. Sea p la proporción de 
componentes fabricados mediante este proceso que presen- 
tan defectos. El ingeniero responsable de la producción afir- 
ma que p = 0.05. ¿La muestra proporciona suficientes 
evidencias para rechazar la afirmación? 


. Una muestra aleatoria de 100 pernos de la producción de un 
día se muestrea y se encuentra que dos de ellos tienen diá- 
metros por debajo de la especificación. Se afirma que la 
proporción de pernos defectuosos entre los fabricados en 
ese día era menor que 0.05. ¿Es adecuado utilizar los méto- 
dos de esta sección para determinar si se puede rechazar es- 
ta afirmación? Si es así, establezca las hipótesis nula y 
alternativa adecuadas y calcule el P-valor. Si no, explique 
por qué. 


3. 


4. 


Una compañía de telecomunicaciones proporcionó a sus 
suscriptores de televisión por cable acceso libre a un nuevo 
canal de deportes durante un mes. Se eligió una muestra de 
400 teleespectadores y se les preguntó si estarían dispuestos 
a pagar 10 dólares extra por mes para continuar teniendo ac- 
ceso al canal. Solamente 25 respondieron que estarían dis- 
puestos a pagar. 

¿La compañía puede concluir que más de 5% de sus sus- 
criptores pagarían el canal? 


Las incineradoras pueden ser una fuente de emisiones peli- 
grosas en la atmósfera. Se recolectaron muchas muestras de 
gases de una muestra de 50 incineradoras en una ciudad. De 
las 50, sólo 18 satisfacían una norma ambiental para la con- 
centración de un compuesto peligroso. ¿Se puede concluir 
que menos de la mitad de las incineradoras en la ciudad sa- 
tisfacen la norma? 
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. Las piezas de grava se clasifican como pequeñas, medianas 


o grandes. Una distribuidora afirma que al menos 10% de 
las piezas de grava de su planta son grandes. En una mues- 
tra aleatoria de 1 600 piezas, 150 se clasificaron como gran- 
des. ¿Representa esto suficiente evidencia para rechazar la 
afirmación? 


. Una máquina pulidora será calificada para una tarea espe- 


cial si puede demostrar que produce menos de 8% de partes 
defectuosas. En una muestra aleatoria de 300 partes, 12 es- 
taban defectuosas. ¿Con base en estos datos la máquina 
puede ser calificada? 


. Un fabricante de estaciones de trabajo de computadora está 


probando un nuevo proceso de ensamble automatizado. El 
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proceso actual tiene una tasa de defectos de 5%. En una 
muestra de 400 estaciones de trabajo ensambladas con el 
nuevo proceso, 15 tenían defectos. ¿Se puede concluir que 
el nuevo proceso tiene una tasa menor de defectos? 


. Con referencia al ejercicio 1 de la sección 5.2. ¿Se puede 


concluir que más de 60% de las mediciones hechas con el 
instrumento serán satisfactorias? 


. Con referencia al ejercicio 2 de la sección 5.2, ¿se puede 


concluir que menos de 40% de los fusibles fabricados ese 
día tenían amperajes de fundición mayores de 15 A? 


10. 


11. 


El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para una proporción poblacional p. 


Test and Cl for One Proportion: X 


Test of p = 0.4 vs p < 0.4 


95% 

Upper 
Variable  X N Sample p Bound Z-Value P-Value 
X 73 240 0.304167 0.353013 -3.03 0.001 


a) ¿Ésta es una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


c) ¿Puede A, ser rechazada a un nivel de 2%? ¿Cómo justifica su respuesta? 


d) Alguien le pregunta si la hipótesis nula Ay: p = 0.45 contra A: p < 0.45 se puede rechazar a un nivel de 2%. ¿Puede res- 


ponder sin hacer ningún cálculo? ¿Cómo? 


e) Utilice el resultado y una tabla adecuada para calcular el P-valor para la prueba de Ay: p < 0.25 contra A: p > 0.25. 


f) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 90% para p. 


El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para una proporción poblacional p. Fal- 


tan algunos números. Complete éstos del (a) al (c). 


Test and CI for One Proportion: X 


Test of p = 0.7 vs p < 0.7 


95% 
Upper 
Variable X N Sample p Bound Z-Value P-Value 
X 345 500 (a) 0.724021 (b) (c) 
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6.4 Pruebas de hipótesis para la media poblacional 


con muestras pequeñas 


En la sección 6.1 se describió un método con el cual se prueba una hipótesis para la media 
poblacional basada en una muestra grande. Un paso clave en el método es aproximar a la des- 
viación estándar o con la desviación estándar muestral s. Después se utiliza la curva normal 
para encontrar el P-valor. Cuando el tamaño muestral es pequeño, s puede no estar cerca de 
a, ello invalida este método de muestras grandes. Sin embargo, cuando la población es apro- 
ximadamente normal, se puede utilizar la distribución £ de Student. Esto se ilustra con un 
ejemplo. 

Los separadores de anillos para una transmisión de eje tienen una especificación de es- 
pesor de 38.98-39.02 mm. El proceso con el que se fabrican los anillos se supone que está ca- 
librado para que la media de los espesores sea de 39 mm en el centro de la ventana de 
especificación. Se extrae una muestra de seis anillos y se mide su espesor. Las seis capas son 
39.030, 38.997, 39.012, 39.008, 39.019 y 39.002. Suponga que la población de los espesores 
de los anillos es aproximadamente normal. ¿Se puede concluir que el proceso necesita reca- 
libración? 

Se denota la media poblacional con yu, las hipótesis nula y alternativa son 


Ho: H = 39.00 contra A: y + 39.00 


Observe que A, especifica un solo valor para yu, puesto que la calibración requiere que la me- 
día sea igual al valor correcto. Para construir el estadístico de prueba, observe que debido a 
que se supone que la población tiene una distribución normal, la cantidad 


y 
sin 


tiene una distribución £ de Student con n — 1 = 5 grados de libertad. Éste es el estadístico de 
prueba. 

En este ejemplo los valores observados de la media muestral y la desviación estándar 
son X = 39.01133 y s = 0.011928. El tamaño muestral es n = 6. La hipótesis nula especifi- 
ca que yu = 39. Por tanto, el valor del estadístico de prueba es 


_ 39.01133 — 39.00 _, y, 
0.011928/46 


El P-valor es la probabilidad de observar un valor del estadístico de prueba cuyo desacuerdo 
con A, es igual o mayor que el realmente observado. Puesto que Ay especifica que u = 39.00, 
ésta es una prueba de dos colas, por lo que ambos valores arriba y abajo de 39.00 no concuer- 
dan con A. Por tanto, el P-valor es la suma de las áreas bajo la curva correspondiente a £ > 
2.327 y at< -2.327. 

La figura 6.7 ilustra la distribución nula e indica la ubicación del estadístico de prueba. 
De la tabla £ (tabla A.3 en el apéndice A) el renglón que corresponde a 5 grados de libertad 
indica que el valor £ = + 2,015 tiene un área de 0.05 en cada cola, para un total de 0.10, y 
que el valor + = + 2.571 corta un área de 0.025 en cada cola, para un total de 0.05. Por tan- 
to, el P-valor está entre 0.05 y 0.10. Aunque no se puede establecer en forma concluyente que 
el proceso no está calibrado, no parece demasiado bueno. Sería prudente recalibrarlo. 
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2.571 ! 2.015 0 2.0151 2.571 
2.327 2.327 


FIGURA 6.7 La distribución nula de 1 = (X — 39.00)/(s/v/6) es la t de Student con 
cinco grados de libertad. El valor observado de £, correspondiente a los valores observados 
X = 39.01133 y s = 0.011928, es 2.327. Si H, es verdadera, la probabilidad de que 1 to- 
me un valor mayor o igual que el observado está entre 0.05 y 0.10. Debido a que A, espe- 
cificó que yu era igual a un valor específico, ambas colas de la curva contribuyen al P-valor. 


En este ejemplo, el estadístico de prueba era una estadística £ en vez de un puntaje z. 
Por esta razón, esta prueba se denomina prueba t. 


Antes de que una sustancia se pueda considerar segura para enterrarse como residuo se deben 
caracterizar sus propiedades químicas. El artículo “Landfilling Ash/Sludge Mixtures” (J. Be- 
noít, T. Eighmy y B. Crannell, en Journal of Geotechnical and Geoenvironmental Enginee- 
ring 1999:877-888) notifica que en una de seis muestras de lodo de una planta de tratamiento 
de agua residual de Nueva Hampshire, la media del pH era 6.68 con desviación estándar de 
0.20. ¿Se puede concluir que la media del pH es menor de 7.0? 


Solución 
Sea u la media del pH para este tipo de lodo. Las hipótesis nula y alternativa son 


Hy:p=7.0 contra H:p=7.0 
Bajo A, el estadístico de prueba 
X-7.0 
s/yn 


tiene una distribución £ de Student con cinco grados de libertad. Al sustituir X = 6.68, s = 
0.20, y n = 6, el valor del estadístico de prueba es 


6.68 — 7.00 
== =3,919 
0.20/46 
Al observar la tabla £ se tiene que al valor + = —3.365 le corresponde un área de 0.01 en la 
cola de la izquierda, y al valor + = —4.033 le corresponde un área de 0.005 (véase la figura 


6.8). Se concluye que el P-valor se encuentra entre 0.005 y 0.01. Existe evidencia de que la 
media del pH es menor que 7.0. 
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0.01 
0.005 


4.032 | 3.365 0 
3.919 


FIGURA 6.8 Solución al ejemplo 6.7. La distribución nula es una £ de Student con cinco 
grados de libertad. El valor observado de £ es —3.919. Si H, es verdadera, la probabilidad 
de que f tenga un valor mayor o igual que el observado se encuentra entre 0.005 y 0.01. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 


plo 6.7. 


One-Sample T: pH 


Test of mu = 7 vs < 7 


95% 

Upper 
Variable N Mean StDev SE Mean Bound T Pp 
pH 6 6.680 0.200 0.081665 6.84453  -3.92 0.006 


Observe que el límite superior de confianza de 95% dado en el resultado es consistente con 
la hipótesis alternativa. Esto último indica que el P-valor es menor a 5%. 


Utilice z, no t, si se conoce o 


En ocasiones se puede tomar una muestra pequeña de una población normal cuya desviación 
estándar a es conocida. En estos casos no se utiliza la curva £ de Student, porque no se está 
aproximando a a con s. Sino que se utiliza la tabla z y se realiza una prueba z. El ejemplo 6.8 
muestra el método. 


Al principio de esta sección se describió una muestra de seis separadores de anillos, cuyos es- 
pesores (en mm) fueron 39.030, 38.997, 39.012, 39.008, 39.019 y 39.002. Se denota la me- 
dia poblacional de los espesores mediante yu y se prueban las hipótesis 


Ho: pH =39.00 contra H¡: mM %+ 39.00 


Ahora suponga que estos seis separadores de anillos se fabricaron justo después de que 
se cambió de lugar la máquina que los produjo. Suponga que, con base en gran número de 
anillos fabricados antes del cambio, se tenía conocimiento de que la población de espesores 
de los anillos se aproximaba mucho a la normal, con desviación estándar a = 0.010 mm, y 
es razonable suponer que el cambio no afectó esto. Con base en los datos, ¿es posible recha- 
zar Hy? 
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Se calcula X = 39.01133. No se necesita el valor de s, ya que se sabe que 7 = 0.010. 
Dado que la población es normal, X también lo es, aunque el tamaño de muestra sea peque- 
ño. Por tanto, la distribución nula es 


X - N(39.00, 0.010?) 


El puntaje z es 


_ 39.01133 — 39.000 
0.010//6 


El P-valor es 0.0054, por lo que A, se puede rechazar tranquilamente. 


Sea X,,..., X, una muestra de una población normal con media y y desviación es- 
tándar a, donde dr es desconocida. 
Para probar una hipótesis nula de la forma Hy: 4 < Mp, Hp: M = Mp, O Ho: mM =H0: 


= 2.78 


X —Ho 
s/y/n 


E Calcule el P-valor. Éste es un área bajo la curva £ de Student con n — 1 grados de 
libertad, que depende de la hipótesis alternativa de la siguiente manera: 


EM Calcule el estadístico de prueba 1 = 


Hipótesis alternativa P-valor 


Hi: p4> Ho Área a la derecha de 1 
HH: p< uo Area a la izquierda de £ 
Hi: Hp Ho Suma de áreas en las colas correspondientes a f y —1 
El Si se conoce a, el estadístico de prueba es z¿ = a y se debe hacer una prue- 
ba z. 0/,/n 


Ejercicios para la sección 6.4 


1. Cada uno de los siguientes conjuntos de datos hipotéticos nes son una muestra aleatoria de una población aproxima- 


representan algunos de los pesos repetidos de un patrón es- 
tándar de peso del que se sabe que tiene una masa de 100 g. 
Suponga que las lecturas son una muestra aleatoria de una 
población que sigue una curva normal. Si es posible, reali- 
ce una prueba 1 para ver si la balanza está calibrada adecua- 
damente. Si no es posible, explique por qué. 


a) 100.02, 99.98, 100.03 
b) 100.01 


. Un geólogo está haciendo mediciones repetidas (en gra- 
mos) de la masa de una roca. No se conoce si las medicio- 


damente normal. A continuación se muestran tres conjuntos 
de repeticiones de las mediciones, listadas en el orden en 
que se realizaron. Para cada conjunto de mediciones esta- 
blezca si las suposiciones necesarias para la validez de la 
prueba 1 parecen satisfacerse. Si las suposiciones no se sa- 
tisfacen, explique por qué. 


a) 213.03 212.95 213.04 213.00 212.99 
213.01 221.03 213.05 


b) 213.05 213.00 212.94 213.09 212.98 
213.02 213.06 212.99 
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c) 212.92 212.95 212.97 213.00 213.01 
213.04 213.05 213.06 


. Se está estudiando un nuevo proceso para sintetizar el me- 


tanol a partir del metano con el fin de evaluar su viabilidad 
técnica. Las simulaciones de diseño indican que el reactor 
debe tener una conversión de metano media mayor que el 
35% para que el proceso sea viable. En un estudio inicial se 
realizaron seis operaciones. La conversión promedio fue de 
39% y la desviación estándar de 4%. Si se puede concluir 
que la media de la conversión ¡u es mayor de 35%, debe rea- 
lizarse una evaluación adicional del proceso. 


a) Establezca las hipótesis nula y alternativa adecuadas. 
b) Determine el P-valor. 


c) ¿Debe realizarse una evaluación adicional del proceso? 
Explique. 


. Se supone que un tipo especial de gasolina tiene una media 


de octanaje mayor de 90%. Se realizaron cinco mediciones 
de la tasa de octanaje de la siguiente manera: 


90.1 88.8 89.5 91.0 92.1 


¿Se puede concluir que la media del octanaje es mayor a 
90%? 


. Se requiere que el espesor de la pared de las botellas de dos 


litros de policarbonato sea en promedio de 4.0 milésimas de 
pulg. Un ingeniero responsable del control de calidad extrae 
una muestra de siete botellas de policarbonato de dos litros 
de una población grande y mide (en milésimas de pulg) los 
espesores de las paredes de cada una. Se obtienen los si- 
guientes resultados. 


4.065 3.967 4.028 4.008 4.195 4.057 4.010 


¿Se puede concluir que la media de los espesores de las pa- 


redes es diferente a 4.0 milésimas de pulg? 


6. Como parte del programa de control de calidad para la línea 


de producción de un catalizador, se prueba la pureza de las 
materias primas (alúmina y un espesante). El proceso re- 
quiere que la pureza de la alúmina sea mayor a 85%. Una 
muestra aleatoria de un envío reciente de alúmina produjo 
estos resultados (en %): 

93.2 87.0 92.1 90.1 87.3 93.6 


Se realizará una prueba de hipótesis para determinar si se 


acepta o no el embarque. 


a) Establezca las hipótesis nula y alternativa adecuadas. 
b) Calcule el P-valor. 


c) ¿Debe aceptarse el embarque? Explique. 


. Una muestra de 18 piezas de material laminado tenía una 


media de deformación de 1.88 mm y una desviación están- 
dar de 0.21 mm. ¿Se puede concluir que la media de la de- 
formación de este tipo de laminado es menor a 2 mm? 


. Con referencia al ejercicio 12 de la sección 5.3, ¿se puede 


concluir que la media de la cantidad de tolueno eliminado 
en el enjuague es menor a 8%? 


. Con referencia al ejercicio 13 en la sección 5.3, ¿se puede 


concluir que la media de la cantidad de uniconazol absorbi- 
da es menor a 2.5 ug? 


10. 


El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para una media poblacional y. 


One-Sample T: X 
Test of mu = 5.5 vs > 5.5 


Variable N 
X 5 


StDev 
0.15755 


Mean 
5.92563 


SE Mean 
0.07046 


95% 
Lower 
Bound T Pp 

5.77542 6.04 


a) ¿Es ésta una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


c) ¿Puede rechazarse H, a un nivel de 1%? ¿Cómo justifica su respuesta? 


d) Utilice el resultado y una tabla adecuada para calcular el P-valor para la prueba de Ay: 4 = 6.5 contra H¡: q < 6.5. 


e) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 99% para yu. 
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11. El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para una media poblacional yu. Faltan 
algunos de los números. Complételos. 


One-Sample 


Test of mu 


Variable 
X 


Te xk 
= 16 vs not = 16 


N Mean StDev SE Mean 95% Cl T Pp 
1:1 13.2874 (a) 1.8389 (Cb), (c) ) (d) Oí..1:7:d 


6.5 Pruebas de hipótesis para la diferencia 
entre dos medias con muestras grandes 


Ahora se analizarán ejemplos en los que se desea determinar si las medias de dos poblaciones 
son iguales. Los datos los conformarán dos muestras, una para cada población. La idea básica 
es simple. Se calculará la diferencia de las medias muestrales. Si la diferencia se encuentra ale- 
jada de O, se concluirá que las medias poblacionales son diferentes. Si la diferencia se aproxi- 
ma a 0, se concluirá que las medias poblacionales podrían ser iguales. 

Como ejemplo, suponga que a la directora de producción de una fábrica de maquinaria 
industrial le interesa que los cojinetes de bolas producidos a temperaturas ambientales bajas 
tengan diámetros menores que los producidos a temperaturas mayores. Para analizar esta 
cuestión, extrae una muestra de 120 cojinetes que se fabricaron durante la mañana, antes de 
que en toda la fábrica se incrementara la temperatura y encontró que la media de su diámetro 
es de 5.068 mm, y que su desviación estándar, 0.011 mm. En forma independiente prueba 65 
cojinetes fabricados durante la tarde; halló que la media de su diámetro es de 5.072 mm, y su 
desviación estándar, 0.007 mm. ¿Puede la directora concluir que los cojinetes fabricados en 
la mañana tienen, en promedio, diámetros menores que los fabricados durante la tarde? 

Se empieza transfiriendo el problema al lenguaje estadístico. Se tiene una muestra alea- 
toria simple X, .. ., X¡2y de diámetros de cojinetes de bolas fabricados por la mañana, y otra 
muestra aleatoria simple Y,,...., Y¿s de diámetros de cojinetes elaborados por la tarde. Se de- 
nota la media poblacional de los diámetros de los primeros cojinetes fabricados por la maña- 
na con uy, y la media poblacional de los diámetros de los segundos elaborados en la tarde con 
My. Las desviaciones estándar correspondientes se denotan con dx y dy. Estas medias y las 
desviaciones estándar poblacionales no se conocen. Los tamaños muestrales son nx = 120 y 
ny = 65. Se tiene interés en la diferencia uy — My. 

Ahora se deben determinar las hipótesis nula y alternativa. La cuestión es si se puede 
concluir que la media poblacional de los cojinetes matutinos es menor que la de los vesperti- 
nos. Por consiguiente, las hipótesis nula y alternativa son 


Ho:4x=Hy=0 contra H¡:ux—Hy<0 
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La prueba está basada en X — Y. Debido a que ambos tamaños de muestra son grandes, X y 
Y se distribuyen aproximadamente como una normal. En virtud de que las muestras son inde- 
pendientes, se tiene que la distribución nula de X — Y es 


a El oo. p 
X —Y =N(Ux— ur, pop =N (us 1 24%) (6.2) 
nx My 

Los valores observados son X = 5.068 y Y = 5.072 para las medias muestrales, y sx = 0.011 
y Sy = 0.007 para las desviaciones estándar muestrales. Bajo Hp, Hx — My = O (el valor más 
cercano a H,). Se aproximan las varianzas poblacionales dx y o; con las varianzas muestra- 
les sí = 0.011? y 7 = 0,00, respectivamente, y se sustituye nx = 120 y ny = 65, para calcu- 
lar la desviación estándar de la distribución nula, obteniendo xi 0.0112/120 + 0.0072/65 = 
0.001327. Por tanto, la distribución nula de X — Y es 


X —Y - N(0, 0.001327?) 


El valor observado de X — Y es 5.068 — 5.072 = —0.004. El puntaje z es 


0.0040 


eE 
¿= 20.001327 a 


La figura 6.9 muestra la distribución nula y la ubicación del estadístico de prueba. El P-valor 
es 0.0013. La sospecha de la directora es correcta. Los cojinetes fabricados en la mañana tie- 
nen menor media de los diámetros. 


P =0.0013 


—0.004 0 
z=-3.01 


FIGURA 6.9 La distribución nula de X — Y es N(0, 0.001327?). Por lo que si H, es ver- 
dadera, la probabilidad de que X — Y tenga un valor mayor o igual que los valores obser- 
vados de —0.004 es de 0.0013. Éste es el P-valor. 


Observe que se utilizó la suposición de que las muestras eran independientes cuando se 
calculó la varianza de X — Y. Ésta es una condición que a menudo se obtiene fácilmente en 
la práctica. A menos que exista una conexión bastante obvia entre los elementos de las dos 
muestras, por lo general se supone con certeza que son independientes. 


El artículo “Effect of Welding Procedure on Flux Cored Steel Wire Deposits” (N. Ramini de 
Rissone, I. de S. Bott y cols., en Science and Technology of Welding and Joining, 2003:113- 
122) compara las propiedades de soldaduras hechas con dióxido de carbono como gas de pro- 
tección con respecto a las de soldaduras hechas mediante una mezcla de argón y dióxido de 
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carbono. Una propiedad estudiada era el diámetro de inclusiones, que son partículas incrus- 
tadas en la soldadura. Una muestra de 544 inclusiones en soldaduras hechas al usar argón co- 
mo protección tiene un diámetro promedio de 0.37 um, con desviación estándar de 0.25 um. 
Una muestra de 581 inclusiones en soldaduras hechas al emplear dióxido de carbono como 
protección tiene diámetro promedio de 0.40 ¡um, con desviación estándar de 0.26 um. (Las 
desviaciones estándar se calcularon con una gráfica.) ¿Se puede concluir que las medias de 
los diámetros de las inclusiones son diferentes entre los dos gases de protección? 


Solución 

Sea X = 0.37 la media del diámetro de la muestra para soldaduras de argón. Entonces sy = 
0.25 y el tamaño de muestra es nz = 544. Sea Y = 0.40 la media del diámetro de la muestra 
de soldaduras de dióxido de carbono. Entonces sy = 0.26 y el tamaño muestral es ny = 581. 
Sea uz la media poblacional del diámetro para las soldaduras de argón, y uy la media pobla- 
cional del diámetro para soldaduras de dióxido de carbono. Las hipótesis nula y alternativa 
son 


Ho:ux—Hy=0 contra H¡:ux—Huy*0 


Se ha observado que X — Y = 0.37 — 0.40 = —0.03. Este valor se extrajo de una po- 
blación normal con media ux — My, y Varianza aproximada por Six + si/ny. Bajo A, se su- 
pone que Ux — My = 0. Al sustituir los valores de sx, Sy, Mx Y Ny la desviación estándar es 
y/0.252/544 + 0.262/581 = 0.01521. Por tanto, la distribución nula de X — Y es 


X —Y - N(0, 0.01521?) 
El puntaje z es 


_ —0.03—0 
— 001521 


= -1.97 


Ésta es una prueba de dos colas, y el P-valor es 0.0488 (véase la figura 6.10). De acuerdo con 
la hipótesis nula se rechazaría la regla de 5%. Es razonable ser escéptico sobre la veracidad 
de Ho. 


0.0244 0.0244 


0.03 0 0.03 
z=-—1.97 z=1.97 


FIGURA 6.10 Solución del ejemplo 6.9. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 
plo 6.9. 
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Two-sample T for Argon vs C02 


N Mean StDev SE Mean 
Argon 544 0.37 0.25 0.010719 
C02 581 0.40 0.26 0.010787 


Difference = mu (Argon) — mu (C02) 
Estimate for difference: 0.030000 


95% confidence bound for difference: 
(-0.0598366, -—0.000163) 


T-Test of difference = 0 (vs not = 0): 
T-Value = -1.97 P-Value = 0.049 DF = 1122 


Observe que para esta prueba la computadora utiliza el estadístico £ en lugar del estadístico z. 
Muchos softwares emplean el estadístico f siempre que se utiliza una desviación estándar 
muestral para estimar la desviación estándar poblacional. Cuando el tamaño de muestra es 
grande, la diferencia entre f y z es insignificante para fines prácticos. Cuando se utilizan ta- 
blas en vez de una computadora, el puntaje z tiene la ventaja de que el P-valor se puede de- 
terminar con mayor precisión mediante una tabla z que con una f. 

Los métodos descritos en esta sección se pueden utilizar para evaluar la hipótesis de que 
dos medias poblacionales son diferentes por una constante específica. El ejemplo 6.10 mues- 
tra cómo. 


Con referencia al ejemplo 6.9, ¿se puede concluir que la media del diámetro para soldaduras 
de dióxido de carbono (uy) es mayor para las soldaduras de argón (uy) en más de 0.015 um? 


Solución 
Las hipótesis nula y alternativa son 


Ho: px — uy > —0.015 contra H¡:ux — My < —0.015 


Se observa X = 0.37, Y = 0.40, sy = 0.25, sy = 0.26, ny = 544 y ny = 581. Bajo H, se tie- 
ne que ux — uy = —0.015. La distribución nula de X — Y dada por la expresión (6.2) es 


X —Y - N(-0.015, 0.01521?) 
Se observa que X — Y = 0.37 — 0.40 = —0.03. El puntaje z es 


0.03 — (0.015) — 
3 0.01521 _ 


0.99 


Ésta es una prueba de una cola. El P-valor es 0.1611. No se puede concluir que la media del 
diámetro de inclusiones de soldaduras de dióxido de carbono sea mayor que la de las solda- 
duras de argón en más de 0.015 um. 
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Sean Xy, ...,X,, y Y¡, - . - > Y, muestras grandes (por ejemplo, nz > 30 y ny > 30) 

de las poblaciones con medias uy y uy y las desviaciones estándar dx y dy, respecti- 

vamente. Suponga que las muestras se extraen en forma independiente una de la otra. 
Para probar una hipótesis nula de la forma H,: 4x — My € Ay Ho: px — My = Ap, 


o H;: ux — My = Ap. 
(X-Y)- Ap 


voz/nx + 07/ny 


pueden aproximar con Sx y Sy, respectivamente. 


mM Calcule el puntaje z: z = . S1 Ox y y Son desconocidas se 


mM Calcule el P-valor. El P-valor es un área debajo de la curva normal que depende 
de la hipótesis alternativa de la siguiente manera: 


Hipótesis alternativa 
Hy: ux — My > Ap 


Hy: px — My < Ap 
Hy: px — My FA, 


Suma de las áreas en las colas correspondientes az y —Z 


P-valor 


Área a la derecha de z 
Area a la izquierda de z 


Ejercicios de la sección 6.5 


1. El artículo “Measurement of Complex Permittivity of Asp- 


halt Paving Materials” (J. Shang, J. Umana y cols., en Jour- 
nal of Transportation Engineering, 1999:347-356) compara 
las constantes dieléctricas entre dos tipos de asfalto, HL3 y 
HL8, utilizados comúnmente en los pavimentos. Para 42 
elementos del asfalto HL3 el promedio de la constante di- 
eléctrica fue de 5.92 con desviación estándar de 0.15, y pa- 
ra 37 elementos del asfalto HL38 el promedio de la constante 
dieléctrica fue 6.05 con desviación estándar de 0.16. ¿Se 
puede concluir que la media de las constantes dieléctricas 
difiere entre los dos tipos de asfalto? 


. Para determinar el efecto del grado de combustible en la efi- 
ciencia del combustible, 80 nuevos automóviles de la mis- 
ma marca, con motores idénticos, fueron conducidos cada 
uno durante mil millas. Cuarenta de los automóviles funcio- 
naron con combustible regular y otros 40 con combustible 
de grado premium; los primeros tenían una media de 27.2 
milla/galón, con desviación estándar de 1.2 milla/galón; los 
segundos tenían una media de 28.1 milla/galón y una des- 
viación estándar de 2.0 milla/galón. ¿Puede concluir que este 
tipo de automóvil tiene mejor millaje con combustible pre- 
mium? 


. Se comparan dos métodos utilizados para purificar una pro- 
teína. En 50 operaciones del método A la media de recupe- 
ración fue de 60% y la desviación estándar de 15%, mientras 


que en 60 operaciones del método B la media de recupera- 
ción fue de 65% y la desviación estándar de 20%. ¿Puede 
concluir que hay una diferencia en las dos tasas de recupe- 
ración? 


. Se comparan dos máquinas utilizadas para llenar envases de 


refresco. Se cuenta durante 60 minutos el número de enva- 
ses llenados cada minuto por cada máquina. Durante 60 mi- 
nutos, la máquina número 1 llenó en promedio 73.8 latas 
por minuto con desviación estándar de 5.2 latas por minu- 
to, y la máquina número 2 llenó en promedio 76.1 latas por 
minuto con desviación estándar de 4.1 latas por minuto. 


a) Si los recuentos se hacían cada minuto durante 60 minu- 
tos consecutivos, ¿qué suposición es necesaria para que 
pueda violarse la validez de una prueba de hipótesis? 


b) Suponiendo que se satisfacen todas las suposiciones ne- 
cesarias, realice una prueba de hipótesis. ¿Puede concluir 
que la máquina número 2 es más rápida que la número 1? 


. Un profesor de estadística que imparte una clase a 160 es- 


tudiantes quiere determinar si los estudiantes tienen más di- 
ficultad con las pruebas de hipótesis de una cola o con las 
de dos colas. En el siguiente examen, 80 de los estudiantes, 
elegidos aleatoriamente, reciben una versión del examen 
con una pregunta de 10 puntos que requiere una prueba de 
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una cola. Los otros 80 estudiantes reciben una pregunta 
idéntica, excepto que requiere una prueba de dos colas. Los 
estudiantes de la pregunta de una cola tienen calificación 
promedio de 7.79 puntos, y su desviación estándar es 1.06 
puntos. Los estudiantes de la pregunta de dos colas tienen 
una calificación promedio de 7.64 puntos, y su desviación 
estándar es de 1.31 puntos. 


a) ¿Puede concluir que la calificación promedio q, en la 
pregunta de una prueba de hipótesis de una cola es ma- 
yor que la calificación promedio ju, de la pregunta de la 
prueba de hipótesis de dos colas? Establezca las hipóte- 
sis nula y alternativa adecuadas, y después calcule el 
P-valor. 


b) ¿Puede concluir que la calificación promedio ju, de la 
pregunta de una prueba de hipótesis de una cola difiere 
de la calificación promedio ju, de la pregunta de la prue- 
ba de hipótesis de dos colas? Establezca las hipótesis nu- 
la y alternativa adecuadas, y después calcule el P-valor. 


. Se probó la velocidad en cierta aplicación de 50 chips nue- 
vos de computadora, con otra cantidad igual de diseño vie- 
jo. La velocidad promedio, en MHz, de los nuevos chips fue 
de 495.6, y la desviación estándar de 19.4. La velocidad 
promedio de los chips viejos fue de 481.2, y la desviación 
estándar fue de 14.3. 


a) ¿Se puede concluir que la media de la velocidad de los 
nuevos chips es mayor que la de los chips viejos? Esta- 
blezca las hipótesis nula y alternativa adecuadas, y des- 
pués encuentre el P-valor. 


b) Una muestra de 60 chips aún más viejos tenía velocidad 
promedio de 391.2 MHz, con desviación estándar de 
17.2 MHz. Alguien afirma que los nuevos chips tienen 
una velocidad promedio mayor a 100 MHz que los más 
viejos. ¿Los datos proporcionan evidencias convincen- 


tes para esta afirmación? Establezca las hipótesis nula y 
alternativa, y después determine el P-valor. 


7. Se consideran dos métodos en un proceso de fabricación de 


pintura con la finalidad de aumentar la producción. En una 
muestra aleatoria de 100 días, la media de producción dia- 
ria con el primer método fue de 625 toneladas, y la desvia- 
ción estándar era de 40 toneladas. En una muestra aleatoria 
de 64 días, la media de la producción diaria que usaba el se- 
gundo método era de 640 toneladas, y la desviación estándar, 
de 50 toneladas. Suponga que las muestras son indepen- 
dientes. 


a) ¿Puede concluir que el segundo método produce la me- 
dia de la producción diaria mayor? 


b) ¿Puede concluir que la media de la producción diaria 
con el segundo método es mayor que la del primer mé- 
todo en más de diez toneladas? 


. Con referencia al ejercicio 7 de la sección 5.4, ¿puede con- 


cluir que la media de la dureza de las soldaduras enfriadas 
a una tasa de 10%C/s es mayor que la de las soldaduras en- 
friadas a una tasa de 30%C/s? 


. La Corporación Eléctrica Subterránea (CES) afirma que sus 


fuentes de energía suministradas para computadoras perso- 
nales duran más que la de su competidor, Productos para 
Aparatos Zircon (PAZ). Se toman muestras aleatorias inde- 
pendientes de 75 unidades de cada una de las fuentes de 
energía de los dos fabricantes y se calculan las medias y las 
desviaciones estándar muestrales 


CES: X, = 4387 h 
PAZ: X, = 4 260 h 


s, =252h 
s=231h 


¿Puede concluir que las fuentes de potencia CES duran más 


que las de PAZ? ¿Cuál es el P-valor para esta prueba? 


. El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para la diferencia 4x — py entre dos 


medias poblacionales: 


Two-sample T for X vs Y 


N Mean StDev 
X 135 3.94 2.65 0.23 
Ni 180 4.43 2.38 0.18 


Difference = mu (X) — mu (Y) 
Estimate for difference: -—0.484442 


95% upper bound for difference: —0.007380 
T-Value 


T-Test of difference = 0 (vs <): 


SE Mean 


—1.68 P-Value = 0.047 DF = 270 


11. 
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a) ¿Esta es una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


c) ¿Se puede rechazar H, a un nivel de 5%? ¿Cómo justifica su respuesta? 


d 


io 


El resultado presenta una prueba / de Student. Calcule el P-valor mediante una prueba z. ¿Los dos resultados son similares? 


e) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 99% para ux — My basado en el esta- 


dístico z. 


El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para la diferencia uz — uy entre dos me- 
dias poblacionales. Faltan algunos de los números. 


Two-sample 
N 

X 78 

Y 63 


Difference 


Trfor X vs Y 
Mean StDev SE Mean 
La (1) 1.26 
20.63 3.02 (11) 


= mu (X) — mu (Y) 


Estimate for difference: 2.670 


95% CI for 


difference: (0.05472, 5.2853) 


( 
T-Test of difference = 0 (vs not =): T-Value = 2.03 P-Value = 0.045 DF = 90 


a) Complete los números faltantes en (1) y en (11). 


b) El resultado presenta una prueba f de Student. Calcule el P-valor mediante una prueba z. ¿Los dos resultados son similares? 


c) Utilice el producto y una tabla adecuada para calcular un intervalo de confianza de 98% para 4ux — py basado en el estadís- 


tico z. 


6.6 Pruebas de hipótesis para la diferencia 
entre dos proporciones 


El procedimiento para probar la diferencia entre dos proporciones es similar al que se utiliza 
cuando se prueba la diferencia entre dos medias. Se ilustra con un ejemplo. 

Una red de computadoras móviles consta de un grupo de éstas que mantienen comuni- 
cación inalámbrica entre sí dentro de un área específica. Un protocolo de direccionamiento 
representa un algoritmo que determina cómo se transmitirá de una máquina a otra en la red, 
para tener la mayor posibilidad de que lleguen a su destino los mensajes. El artículo “Perfor- 
mance Comparison of two Location Based Routing Protocols” (T. Camp, J. Boleng y cols., 
en Proceedings of the IEEE International Conference on Communications, 2002:3318-3324) 
compara la eficacia de dos protocolos de direccionamiento en muchas métricas, incluyendo 
la tasa de envíos exitosos. Suponga que mediante el protocolo A se enviaron 200 mensajes, y 
170 de ellos, 85%, fueron recibidos con éxito. Con el protocolo B, se enviaron 150 mensajes, 
y 123 de ellos, 82%, fueron recibidos con éxito. ¿Se puede concluir que el protocolo A tiene 
mayor tasa de éxito? 

En este ejemplo las muestras constan de éxitos y fracasos. Sea X el número de mensa- 
jes enviados con éxito al usar el protocolo A, y sea Y el número de mensajes enviados con éxi- 
to empleando el protocolo B. Los valores observados en este ejemplo son X = 170 y Y = 123. 
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Sea px la proporción de mensajes que se enviaron con éxito mediante el protocolo A y py la 
proporción correspondiente del protocolo B. Los valores px y py son desconocidos. 
Las variables aleatorias X y Y tienen distribuciones binomiales, con nz = 200 y ny = 
150 ensayos, respectivamente. Las probabilidades de éxito son py y py. Las proporciones 
muestrales de los valores observados son px = 170/200 = 0.85 y py = 123/150 = 0.82. 
Las hipótesis nula y alternativa son 


Ho:px=—pr<0U0 contra Hi¡:px—py>0 


La prueba está basada en el estadístico px — Py. Se debe determinar la distribución nula de 
este estadístico. Por el teorema del límite central, puesto que ny y ny son grandes, 


da (1 — px) A (1 — pr) 
px N (px. Ed Pr “N| pr, AA 
Nx ny 


Por tanto, 


(6.3) 


Ppx(1 — px) ap pr(l — py) 
nx Ny 


Pen (px pr, 


Obtener la distribución nula requiere sustituir los valores para px — py y la varianza px(1 — 
Px)Mx + py (1 — py/ny. La media se obtiene fácilmente. La hipótesis nula especifica que px 
— py S 0, por lo que se tiene que px — py = 0. La obtención de la varianza es un poco más 
difícil. A primera vista, podría parecer razonable aproximar la desviación estándar al sustituir 
las proporciones muestrales Pz y Py para las proporciones poblacionales px y py. Sin embar- 
go, la hipótesis nula A, especifica que las proporciones poblacionales son iguales. Por tanto, 
se deben calcular ambas con un valor común. El valor adecuado es la proporción combina- 
da, obtenida al dividir el número total de éxitos de ambas muestras entre el tamaño muestral 
total. Este valor es 

A x+Y 
po nx + ny 
En consecuencia, la distribución nula de px — Py se estima cuando se sustituye la proporción 
combinada P tanto para px como para py en la expresión (6.3). Se obtiene 


pr Pra (o, pa (+ 2) (64) 
nx Ny 
En este ejemplo p = (170 + 123)/(200 + 150) = 0.837. Bajo H, se tiene que px — Py 
= 0. Por tanto, la distribución nula de py — Py es normal con media O y desviación estándar 
1/0.837(1 — 0.837)(1/200 + 1/150) = 0.0399. El valor observado de py — pyes 0.85 — 0.82 
= 0.03. Por consiguiente, el puntaje z es 


0.03 — 0 
¿00 07 
El P-valor es 0.2266. La figura 6.11 muestra la distribución nula y señala la ubicación 
del estadístico de prueba. Con base en este P-valor no se puede concluir que el protocolo B 
tenga una tasa de éxito mayor. Observe que para que el teorema del límite central sea válido, 
ambas muestras deben ser razonablemente grandes. Una buena regla general es que haya al 
menos diez éxitos y diez fracasos en cada muestra. 
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P =0.2266 


0 0.03 
z=0.75 


FIGURA 6.11 La distribución nula de Hz — Py es N(O, 0.0399?). Por tanto, si H, es ver- 
dadera, la probabilidad que px — Px adquiere un valor mayor o igual que el observado de 
0.03 es 0.2266. Éste es el P-valor. 


A menudo, las compañías industriales emplean métodos de “transferencia de riesgo”, un se- 
guro o las cláusulas de indemnización en los contratos, como una técnica de administración 
de riesgos. El artículo “Survey of Risk Management in Major U.K. Companies” (S. Baker, K. 
Ponniah y S. Smith, en Journal of Professional Issues in Engineering Education and Practi- 
ce, 1999:94-102) informa los resultados de una encuesta en la cual se les pregunta a los di- 
rectivos acerca de los métodos importantes en la estrategia de administración de riesgos de 
sus compañías. En una muestra de 43 compañías petroleras, 22 indicaban que la transferen- 
cia de riesgos fue determinante, mientras que en una muestra de 93 compañías constructoras 
55 confirmaron lo anterior. (Estas cifras se obtuvieron a partir de una gráfica.) ¿Se puede con- 
cluir que la proporción de compañías petroleras que emplean el método de transferencia de 
riesgos es menor que la proporción de compañías constructoras que lo hacen? 


Solución 

Sea px = 22/43 = 0.5116 la proporción muestral de compañías petroleras que emplean mé- 
todos de transferencia de riesgos, y py = 55/93 = 0.5914 la proporción muestral correspon- 
diente de las compañías constructoras. Los tamaños muestrales son nz = 43 y ny = 93. Sean 
Px Y Py las proporciones poblacionales de las compañías petroleras y constructoras, respecti- 
vamente. Las hipótesis nula y alternativa son 


Ho:px—Ppy=0 contra H¡:px—py<0 


La prueba se basa en Pz — Py. Dado que ambas muestras son grandes, la distribución nula de 
Px — Py está dada por la expresión (6.4). La proporción combinada es 

2 22+55 

= 37 = 0.5662 

P= 43793 
La distribución nula es normal con media O y desviación estándar 
1/0.5662(1 — 0.5662)(1/43 + 1/93) = 0.0914. El valor observado de pz — pyes 0.5116 
— 0.5914 = —0.0798. El puntaje z es 


_ —0.0798—0 
0.0914 


= —0.87 


El P-valor es 0.1922 (véase la figura 6.12). No se puede concluir que la proporción de com- 
pañías petroleras que emplean métodos de transferencia de riesgos sea menor que la propor- 
ción de compañías constructoras que lo hacen. 
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P =0.1922 


| 
0.0798 0 
z= —0.87 


FIGURA 6.12 Solución al ejemplo 6.11. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 
plo 6.11. 


Test and CI for Two Proportions: 011, Indus. 


Variable X N Sample p 
071 22 43  0.511628 
Indus. 55 93  0.591398 


Difference = p (011) — p (Indus.) 

Estimate for difference: -0.079770 

95% Upper Bound for difference: 0.071079 

Test for difference = 0 (vs < 0): Z= -—0.87 P-Value = 0.192 


El resultado se explica por sí mismo. Observe que el límite superior de confianza de 
95% se calcula con el método tradicional (la expresión 5.19 de la sección 5.5 presenta las dos 
versiones de este método). 


Sea X — Bin(nx, px) y Y — Bin(ny, py). Suponga que tanto nz como ny son grandes, y 
que X y Y, son independientes. 

Para probar una hipótesis nula de la forma Hp: px — Py E 0, Ho: Px — Py=0,0 
Ho: px — py =0: 


A X _ Y  X+Y 
EM Calcule px = —,Pr= —,Y P= ———. 
nx ny Nx + Ny 

Px — Pr 


EM Calcule el puntaje z: z = 


VA — DP 1/nx + 1/ny) 


E Calcule el P-valor. Éste es un área bajo la curva normal que depende de la hipóte- 
sis alternativa de la siguiente manera: 


Hipótesis alternativa P-valor 
Hi:px-py>0 Área a la derecha de z 
Hi: px-py<0 Area a la izquierda de z 


Hi:px—py+0 Suma de las áreas de las colas correspondientes az y —Z 
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Ejercicios de la sección 6.6 


1. 


Se comparan dos máquinas de extrusión que fabrican vari- 
llas de acero. En una muestra de mil varillas tomadas de la 
máquina número 1, 960 satisfacían las especificaciones de 
longitud y diámetro. En otra muestra de 600 varillas toma- 
das de la máquina número 2, 582 cumplían las especifica- 
ciones. La máquina número 2 tiene un costo de operación 
más alto, por lo que se decide que se usará la máquina nú- 
mero 1 a menos que se demuestre claramente que la máquina 
número 2 produce mayor proporción de varillas que satisfa- 
cen las especificaciones. 


a) Establezca las hipótesis nula y alternativa adecuadas para 
tomar la decisión respecto de qué máquina se utilizará. 


b) Calcule el P-valor. 


Cc) ¿Qué máquina se debe utilizar? 


Se compran resistores etiquetados con 100 Q a dos distri- 
buidores diferentes. La especificación para este tipo de re- 
sistor es que su resistencia verdadera esté dentro del 5% de 
su resistencia etiquetada. En una muestra de 180 resistores 
del distribuidor A, 150 de éstos satisfacían la especifica- 
ción. En otra muestra de 270 resistores comprados al distri- 
buidor B, 233 cumplían la especificación. El distribuidor A 
es el proveedor actual, pero si los datos demuestran convin- 
centemente que una proporción mayor de los resistores del 
distribuidor B satisface la especificación, se hará el cambio. 


a) Establezca las hipótesis nula y alternativa adecuadas. 
b) Determine el P-valor. 


c) ¿Se debe hacer el cambio? 


El artículo “Strategic Management in Engineering Organi- 
zations” (P. Chinowsky, en Journal of Management in En- 
gineering, 2001:60-68) presenta los resultados de una 
encuesta de estilos de dirección que se realizó tanto a com- 
pañías constructoras privadas como entidades públicas. De 
un total de 400 compañías privadas contactadas, 133 con- 
testaron completamente la encuesta, mientras que de 100 
entidades públicas sólo 50 respondieron. ¿Puede llegar a la 
conclusión de que la tasa de respuesta es diferente entre las 
compañías privadas y las entidades públicas? 


El artículo “Training Artificial Neural Networks with the 
Aid of Fuzzy Sets” (C. Juang, S. Ni y C. Lu, en Computer- 
Aided Civil and Infrastructure Engineering, 1999:407-415) 
describe el desarrollo de redes neurales artificiales diseña- 
das para predecir la plegabilidad de suelos. Un modelo con 
una capa oculta tiene una predicción de éxito en 48 de los 
60 casos, mientras que otro con dos capas ocultas tiene una 
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predicción de éxito en 44 de los 60 casos. Suponiendo que 
estas muestras son independientes, ¿puede concluir que el 
modelo con una capa oculta tiene una tasa de éxito mayor? 


En una encuesta de 100 usuarios de una tarjeta de crédito ele- 
gidos aleatoriamente, 57 dijeron que sabían que empleando 
la tarjeta podían ganar millas de viajero frecuente en cierta 
aerolínea. Después de una campaña publicitaria para difundir 
este beneficio, se realizó una encuesta independiente entre 
200 usuarios de tarjeta de crédito, y 135 dijeron que conocían 
el beneficio. ¿Puede concluir que el conocimiento de este be- 
neficio aumentó después de la campaña publicitaria? 


El artículo “Modeling the Inactivation of Particle-Associated 
Coliform Bacteria” (R. Emerick, F. Loge y cols., en Water 
Environment Research, 2000:432-438) presenta los recuentos 
de números de partículas de diferentes tamaños en muestras de 
agua residual que contenían bacterias coliformes. De las 161 
partículas de 75-80 ¡um de diámetro, 19 contenían bacterias 
coliformes, y de las 95 partículas de 90-95 ¡um de diámetro, 
22 contenían bacterias coliformes. ¿Puede concluir que las 
partículas más grandes tienen una probabilidad mayor de te- 
ner bacterias coliformes? 


Para probar la eficacia de los empaques de protección, una 
compañía envió 1 200 órdenes con un empaque ligero co- 
mún y 1 500 órdenes con un empaque de gran resistencia. 
De las órdenes enviadas con el empaque ligero, 20 llegaron 
deterioradas, mientras que de las órdenes enviadas con el 
otro empaque, 15 llegaron deterioradas. ¿Puede concluir 
que el empaque de gran resistencia reduce la proporción de 
órdenes deterioradas? 


En una muestra de 100 lotes de un producto químico com- 
prado al distribuidor A, 70 satisfacen una especificación de 
pureza. En una muestra de 70 lotes comprada al distribuidor 
B, 61 satisfacen la especificación. ¿Puede concluir que una 
proporción mayor de los lotes del distribuidor B satisface la 
especificación? 


En el artículo “Nitrate Contamination of Alluvial Ground- 
waters in the Nakdong River Basin, Korea” (J. Min, S. Yun 
y cols., en Geosciences Journal, 2002: 35-46) se describen 
41 muestras de agua tomadas de pozos en el área Daesan, y 
se encontró que 22 satisfacían las normas de calidad de po- 
tabilidad. Se tomaron 31 muestras del área de Yongdang, y 
se encontró que 18 satisfacían las normas. ¿Puede concluir 
que la proporción de pozos que satisfacían las normas es di- 
ferente entre las dos áreas? 
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10. En una prueba clínica para comparar la efectividad de dos 
analgésicos, a una muestra de 100 pacientes se le suminis- 
tró el medicamento A, y en una muestra independiente de 
200 pacientes se les suministró el medicamento B. De los 
pacientes que recibieron el medicamento A, 76 notificaron 
un importante alivio, mientras que del otro grupo de pacien- 
tes, 128 informaron lo mismo. ¿Puede concluir que el me- 
dicamento A es más efectivo que el B? 

11. Con el propósito de determinar si una nueva campaña de pu- 

blicidad estaba dirigida más hacia hombres o a mujeres, un 

publicista proporcionó a cada pareja de una muestra aleato- 


ria de 500 parejas casadas un nuevo tipo de control remoto 
de TV que, se supone, es más fácil de encontrarse cuando 
se le necesita. De los 500 esposos, 62% dijo que el nuevo 
control remoto era más fácil de encontrarse que el viejo. De 
las 500 esposas, solamente 54% dijo que el nuevo control 
remoto era más fácil de encontrarse. Sea p, la proporción 
poblacional de hombres casados que consideran que el nue- 
vo control remoto es más fácil de encontrar, y sea p, la pro- 
porción correspondiente de mujeres casadas. ¿Puede 
utilizarse el estadístico p, — p, = 0.62 — 0.54 para probar 
Ho: pi — p =0 contra H;¡: p, — p, + 07 Si es así, realice 
la prueba y calcule el P-valor. Si no, explique por qué. 


12. 
porciones poblacionales. 


El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para la diferencia p, — p, entre dos pro- 


Test and CI for Two Proportions 


Sample Xx N Sample p 

1 41 97 0.422680 

2 37 61 0.606557 

Difference = p (1) — p (2) 

Estimate for difference: -—0.183877 

95% Cl for difference: (-0.341016, -—0.026738) 

Test for difference = 0 (vs not = 0): Z= -2.25 P-Value = 0.024 


a) ¿Ésta es una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


c) ¿Se puede rechazar H, a un nivel de 5%? ¿Cómo justifica su respuesta? 


13. 


El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para la diferencia p; — p, entre dos pro- 


porciones poblacionales. Faltan algunos de los números. Complete los números del (a) al (d). 


Test and CI for Two Proportions 


Sample X N Sample p 

1 101 153 (a) 

2 (b) 90 0.544444 

Difference = p (1) — p (2) 

Estimate for difference: 0.115686 

95% Cl for difference: (-0.0116695, 0.243042) 

Test for difference = 0 (vs not = 0): Z= (c) P-Value = (d) 
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6.7 Pruebas de hipótesis para la diferencia 
entre dos medias con muestras pequeñas 


La prueba £ se puede utilizar en algunos casos donde las muestras son pequeñas, por lo cual 
el teorema del límite central no es aplicable. Aquí se presenta un ejemplo. 

El artículo “The Achondroplasia Paternal Age Effect Is Not Explained By an Increase 
in Mutant Frequency” (1. Tiemann-Boege, W. Navidi, y cols., en Proceedings of the National 
Academy of Sciences, 2002: 14952-14957) describe un experimento en el que se cuenta un 
número de moléculas de ADN, y se necesita determinar si éstas contienen cierta secuencia de 
nucleótidos. Lo anterior se hace al repetir el experimento con una enzima adicional que di- 
giere la secuencia de interés. Si el número promedio es menor con la enzima presente, enton- 
ces se concluye que las moléculas que se están contando contienen la secuencia. 

Suponga que en seis muestras preparadas de forma idéntica, sin la enzima presente, los 
números de moléculas contadas son 33, 30, 26, 22, 37 y 34. Suponga que en cuatro muestras 
preparadas de forma idéntica, sin la enzima presente, los números de moléculas fueron 22, 29, 
25 y 23. ¿Se puede concluir que dicho número es menor cuando la enzima está presente? 

Se tienen solamente algunas observaciones para cada proceso, así que el teorema del lí- 
mite central no es aplicable. Si ambas poblaciones son aproximadamente normales, la distri- 
bución £ de Student se puede utilizar para construir una prueba de hipótesis. 

Sean X;, ...., X¿ los números de moléculas obtenidos sin la enzima, y Y,,..., Y¿ los 
que tienen la enzima. Sean uy y My las medias poblacionales de las cuales se tomaron estas 
muestras; y nx y ny los tamaños de muestra. Las hipótesis nula y alternativa son 


Ho:4hx=Huy<0 contra H¡:ux—Hy>0 


Se supone que ambas poblaciones siguen distribuciones normales. Por tanto (como se 
analizó en la sección 5.6), la cantidad 


(X — Y) — (ux — My) 


vVs;/nx +s7/ny 


tiene una aproximada distribución + de Student con v grados de libertad, donde 


(6.5) 


vV= redondeando hacia abajo al entero más próximo. 


—(sih/nxY?  (st/nyY 


nx=1 ny=1 


Los valores observados para las medias y desviaciones estándar muestrales son X = 30.333, 
Y = 24.750, sx = 5.538, sy = 3.096. Los tamaños muestrales son nx = 6 y ny = 4. Al susti- 
tuir los valores para las desviaciones estándar y los tamaños muestrales, se calcula que v = 
7.89, que se redondea hacia abajo a 7. Bajo Ho, Hx — My = O. Por tanto, el estadístico de prue- 
ba es 
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(x-Y)-0 
vVs;/nx +s¿/ny 


Bajo H,, el estadístico de prueba tiene la distribución £ de Student con siete grados de liber- 
tad. Al sustituir los valores de X, Y, sx, sy, Ny y ny se calcula que el estadístico de prueba es 


5.5830 
2.740 


= 2.038 


Al consultar la tabla £ con siete grados de libertad, se encuentra que el valor que corresponde 
al 5% en la cola derecha es 1.895, y el que corresponde a 2.5% es 2.365. Por tanto, el P-va- 
lor se encuentra entre 0.025 y 0.05 (véase la figura 6.13). Se concluye que el número prome- 
dio de moléculas es menor cuando la enzima está presente. 


0.05 
0.025 


0 1.895 | 2.365 
2.038 


FIGURA 6.13 La distribución nula es la distribución t de Student con siete grados de li- 
bertad. El valor observado del estadístico de prueba es 2.038. Si HA, es verdadera, la pro- 
babilidad de que £ tenga un valor mayor o igual que el observado está entre 2.5 y 5%. 


Un buen diseño del sitio web puede hacer la navegación más fácil. El artículo “The Implica- 
tions of Visualization Ability and Structure Preview Design for Web Information Search 
Tasks” (H. Zhang y G. Salvendy, en International Journal of Human-Computer Interaction 
2001:75-95) presenta una comparación del reconocimiento de elementos entre dos diseños. 
Una muestra de diez usuarios que utilizan un diseño web convencional tuvo promedio de 32.3 
elementos identificados, con desviación estándar de 8.56. Una muestra de diez usuarios que 
utilizan un nuevo diseño web estructurado tuvo promedio de 44.1 elementos identificados, 
con desviación estándar de 10.09. ¿Se puede concluir que el número promedio de elementos 
identificados es mayor con el nuevo diseño estructurado? 


Solución 

Sea X = 44.1 la media muestral para el diseño web estructurado. Entonces sx = 10.09 y nx 
= 10. Sea Y = 32.3 la media muestral para el diseño web convencional. Entonces sy = 8.56 
y ny = 10. Sean uy y My las medias poblacionales de las mediciones hechas mediante los mé- 
todos estructurado y convencional, respectivamente. Las hipótesis nula y alternativa son 


Ho:4hx=Huy<0 contra H¡:ux—Hy>0 
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El estadístico de prueba es 
(Xx-Y)-0 


vVsx/Nx +s;/ny 


Al sustituir valores para X, Y, sx, Sy, Nx y Ny, se calcula que el valor del estadístico de 
prueba es de £ = 2.820. Bajo A, éste tiene una distribución aproximada £ de Student, con el 
número de grados de libertad dado por 


Ti 


10.092 8.562 Y 
10 +10 
iS o 25 =17.53% 17 
(10.092/10)  (8.562/10)? 
9 A 9 


Al consultar la tabla £ con 17 grados de libertad, se encuentra que el valor correspon- 
diente a 1% en la cola derecha es 2.567, y el de 0.5%, 2.898. Por tanto, el área en cola dere- 
cha correspondiente a los valores que son mayores o iguales que el valor observado de 2.820 
se encuentra entre 0.005 y 0.010. En consecuencia, 0.005 < P < 0.01 (véase la figura 6.14). 
Hay gran evidencia de que el número promedio de elementos identificados es mayor en el di- 
seño nuevo. 


0.01 
0.005 


ob 


2.567 | 2.898 

2.820 
FIGURA 6.14 Solución al ejemplo 6.14. El P-valor es el área en la cola derecha, que es- 
tá entre 0.005 y 0.01. 


El siguiente resultado de computadora (de MINITAB) presenta los resultados del ejem- 
plo 6.12. 


Two-Sample T-Test and CI: Struct, Conven 


Two-sample T for C1 vs C2 


N Mean StDev SE Mean 
Struct 10 44.10 10.09 3.19074 
Conven 10 32.30 8.56 2.70691 


Difference = mu (Struct) — mu (Conven) 
Estimate for difference: 11.8000 

95% lower bound for difference: 4.52100 
T-Test of difference = 0 (vs >): 

T-Value = 2.82 P-Value = 0.006 DF = 17 
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Observe que el límite inferior de confianza de 95% es consistente con la hipótesis alternati- 
va. Esto último indica que el P-valor es menor a 5%. 

Los métodos descritos en esta sección se pueden utilizar para probar la hipótesis de que dos 
medias poblacionales difieren por una constante especificada. El ejemplo 6.13 muestra cómo. 


Con referencia al ejemplo 6.12, ¿puede concluir que la media del número de elementos iden- 
tificados con el nuevo diseño estructurado es mayor al diseño convencional por más de 2? 


Solución 
Las hipótesis nula y alternativa son 


Ho:4hx=Huy<2 contra H¡:ux — My > 2 


Se observa que X = 44.1, Y = 32.3, sx = 10.09, sy = 8.56, nz = 10 y ny = 10. Bajo H,, se 
tiene que ux — uy = 2. El estadístico de prueba está dado por la expresión (6.5) como 


(X-Y)-2 
Vs; /nx + s7/ny 


Bajo H,, el estadístico de prueba tiene la distribución £ de Student con 17 grados de libertad. 
Observe que el número de grados de libertad se calcula del mismo modo que en el ejemplo 
6.12. El valor del estadístico de prueba es 1 = 2.342. Ésta es una prueba de una cola. El P-va- 
lor está entre 0.01 y 0.025. Se concluye que la media del número de elementos identificados 
con el nuevo diseño estructurado es mayor que con el diseño convencional por más de 2. 


Sean Xy, ..., Xp, y Y¡, - . - > Y, muestras que tienen poblaciones normales con medias 
Hx Y My y desviaciones estándar dx y dy, respectivamente. Suponga que las muestras 
se extraen de manera independiente entre sí. 

Si no se conoce que dx y dy son iguales, entonces, para probar una hipótesis nula 


de la forma Hy: 4x — My = Ay, Ho: Mx — My = Ap, O Ho: Mx — My = Ap: 


[((5/nx) + (s/n Y 
[(5/10?/(Mx = DJ +[(57/ny)?/(My — D)] 
abajo al entero más próximo. 


ME Calcular y = 


, redondeado hacia 


Zi (X — Y)-— Ao 
EM Calcular el estadístico de prueba ! = = 3 a 
Vsx/nx +s;/ny 


E Calcular el P-valor. Éste es un área debajo la curva £ de Student con v grados de li- 
bertad, que depende de la hipótesis alternativa de la siguiente manera: 


Hipótesis alternativa P-valor 
Hi: px HMy> Apo Área a la derecha de £ 
Hi: px HMy< A, Área a la izquierda de £ 


H¡: Mx — My FA, Suma de las áreas en las colas correspondientes a f y —f 
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Cuando las poblaciones tienen varianzas iguales 
Cuando se conoce que las varianzas poblacionales son aproximadamente iguales es posible 
utilizar la varianza combinada (véase la sección 5.6). Esta última la da 

Ds (nx — 1 + (ny — 1) 

Pp nx +ny-=2 


El estadístico de prueba para probar cualesquiera de las hipótesis nulas H/: 4x — my = 0, Ay: 
Mx — My =0, 0 Ho: Mx — My =0es 

XT 
_ sp 1/nx + 1/ny 


Bajo A,, el estadístico de prueba tiene la distribución £ de Student con ny + ny — 2 grados de 
libertad. 


Se han desarrollado dos métodos para determinar el contenido de níquel del acero. En una 
muestra de cinco reproducciones del primer método sobre cierta clase de acero, la medición 
promedio (en porcentaje) fue X = 3.16 y la desviación estándar sx = 0.042. El promedio de 
las siete reproducciones del segundo método fue Y = 3.24, y la desviación estándar, sy = 
0.048. Suponga que se conoce que las varianzas poblacionales son casi iguales. ¿Se puede 
concluir que hay diferencia en las mediciones promedio entre los dos métodos? 


Solución 
Cuando se sustituyen los tamaños muestrales nx = 5 y ny = 7 junto con las desviaciones es- 
tándar muestrales sy = 0.042 y sy = 0.048, se calcula la desviación estándar combinada y se 
obtiene s, = 0.0457, 

Por tanto, el valor del estadístico de prueba es 


316-324 _ 
0.0457 /1/5+ 1/7 


Bajo H,, el estadístico de prueba tiene la distribución £ de Student con diez grados de liber- 
tad. Al consultar la tabla £ de Student, se encuentra que el área debajo de la curva en cada co- 
la se halla entre 0.01 y 0.005. Dado que la hipótesis nula establecía que las medias eran 
iguales, ésta es una prueba de dos colas, por lo que el P-valor representa la suma de las áreas 
en ambas colas. Se concluye que 0.01 < P < 0.02 (véase la figura 6.15). Parece haber una 
diferencia en las medias de las mediciones entre los dos métodos. 


2.990 


No suponga que las varianzas poblacionales son iguales 
sólo porque las varianzas muestrales se aproximan 


Es tentador suponer que las varianzas poblacionales son iguales siempre que las muestrales 
son aproximadamente iguales. Sin embargo, esta suposición no está justificada, ya que tal vez 
las varianzas muestrales sean casi iguales, incluso cuando las poblacionales son muy diferen- 
tes. Las suposición de que éstas son iguales se hace sólo cuando se conocen los procesos que 
produjeron los datos que justificaban esta suposición. Véase el análisis en la p. 343. 
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1 
3.169 | —2.764 0 2.764 [3.169 


2.990 2.990 


FIGURA 6.15 Solución al ejemplo 6.14. El P-valor es la suma de las áreas en ambas co- 
las, que se encuentra entre 0.01 y 0.02. 


Sean Xy, ..., Xp, y Y¡, - . > Y, muestras de poblaciones normales con medias uy y 
My y desviaciones estándar dx y dy, respectivamente. Suponga que las muestras se ex- 
trajeron de manera independiente una de la otra. 

Si se conoce que dx y dry son iguales, entonces, para probar una hipótesis nula de 
la forma Aj: 4x — Uy S Aj, Hy: Mx — My = Ay, O Hp: Ux — My = Ay: 


—=1 2 = 1 2 
M Calcule s, = E an ar 7 
nx Ny = 


(X-Y)-Ay 
spy 1/nx + 1/ny' 


E Calcule el P-valor. Éste es un área bajo la curva £ de Student con nz + ny — 2 
grados de libertad, que depende de la hipótesis alternativa como se muestra a con- 
tinuación: 


E Calcule al estadístico de prueba 1 = 


Hipótesis alternativa 


Hi: 4x — My > A, 
H¡: px — My <A, 


Ejercicios para la sección 6.7 


1. Un fabricante de pinturas en tono pastel está comparando 
los efectos de dos clases de tintura amarilla para el brillo de 
las pinturas. La tintura B es más costosa que la A, pero se 
supone que puede producir una pintura con tono más fuer- 
te. Se prueban cuatro pinturas en tonos pastel con cada tipo 
de tintura, y se mide para cada una la energía de impacto (en 
joules). Los resultados son: 


Hi: px — My % Ap Suma de las áreas en las colas correspondientes a £ y —f 


P-valor 


Área a la derecha de £ 
Área a la izquierda de £ 


Tintura A: 10 2.0 1.2 3.0 
TinturaB: 3.0 3.2 2.6 3.4 


a) ¿Puede concluir que la media de la energía de las pintu- 
ras en tono pastel hechas con la tintura B es mayor que 
las hechas con la tintura A? 


6.7 Pruebas de hipótesis para la diferencia entre dos medias con muestras pequeñas 


b) ¿Puede concluir que la media de la energía de las pintu- 
ras en tono pastel hechas con la tintura B es mayor que 
las hechas con la tintura A por más de 1 J? 


. Se realiza un estudio para determinar si el chocolate semi- 
dulce se disuelve más rápidamente que el de leche. Ocho 
personas disolvieron una pieza de chocolate semidulce, 
mientras que siete disolvieron una pieza de chocolate de le- 
che. Los tiempos de disolución, en segundos, fueron: 


30 55 50 22 
45 58 23 64 


46 45 30 44 
105 93 28 


Semidulce: 
De leche: 


¿Puede concluir que la media de los tiempos de disolución 
del chocolate de leche es diferente a la del chocolate semi- 
dulce? 


. El artículo “Modeling Resilient Modulus and Temperature 
Correction for Saudi Roads” (H. Wahhab, I. Asi y R. Ra- 
madhan, en Journal of Materials in Civil Engineering, 
2001:298-305) describe un estudio diseñado para predecir 
el módulo elástico del pavimento a partir de sus propieda- 
des físicas. Una de las cuestiones tratadas era si los módulos 
difieren cuando hay pavimento con y sin baches. A conti- 
nuación se presentan mediciones del módulo elástico a 40-C 
(en 10% kPa) de siete secciones de pavimento con baches y 
12 sin baches. 


1.48 1.88 1.90 1.29 3.53 2.43 1.00 


3.06 2.58 1.70 5.76 2.44 2.03 1.76 
4.63 2.86 2.82 1.04 5.92 


Con baches: 


Sin baches: 


Realice una prueba de hipótesis para determinar si es facti- 
ble que la media de los módulos elásticos sea la misma pa- 
ra pavimento con y sin baches. Calcule el P-valor. ¿Cuál es 
su conclusión? 


. El artículo “Time Series Analysis for Construction Produc- 
tivity Experiments” (T. Abdelhamid y J. Everett, en Journal 
of Construction Engineering and Management 1999:87-95) 
presenta un estudio que compara la efectividad de un siste- 
ma de video que permite que un operador de grúa vea el 
punto de levantamiento con respecto a la operación del siste- 
ma antiguo, en el cual el operador se auxiliaba con las señales 
manuales de una persona. Se estudiaron tres levantamientos 
diferentes, A, B, y C. El levantamiento A fue de poca difi- 
cultad, el B, de moderada, y el C, de gran dificultad. Cada 
levantamiento se realizó varias veces, tanto con el nuevo 
sistema de video como con el sistema de señales manuales. 
Se registró el tiempo (en segundos) requerido para realizar 
cada levantamiento. Las siguientes tablas presentan las me- 
dias, las desviaciones estándar y los tamaños muestrales. 
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Dificultad baja 
Desviación Tamaño 
Media estándar muestral 
Señales de 
una persona 47.79 2.19 14 
Video 47.15 2.65 40 
Dificultad moderada 
Desviación Tamaño 
Media estándar muestral 
Señales de 
una persona 69.33 6.26 12 
Video 58.50 5.59 24 
Gran dificultad 
Desviación Tamaño 
Media estándar muestral 
Señales de 
una persona 109.71 17.02 17 
Video 84.52 13.51 29 


a) ¿Puede concluir que la media del tiempo para realizar 
un levantamiento de dificultad baja es menor cuando se 
utiliza el sistema de video que cuando se usa el sistema 
antiguo? Explique. 

b) ¿Puede concluir que la media del tiempo para realizar 
un levantamiento de dificultad moderada es menor 
cuando se utiliza el sistema moderno que cuando se em- 
plea el sistema antiguo? Explique. 


c) ¿Puede concluir que la media del tiempo para realizar 
un levantamiento de gran dificultad es menor cuando se 
utiliza el sistema de video que cuando se emplea el sis- 
tema anterior? Explique. 


5. El artículo “Calibration of an FTIR Spectrometer” (P. Pan- 
kratz, en Statistical Case Studies for Industrial, and Process 
Improvement, SIAM-ASA, 1997:19-38) describe el uso de 
un espectrómetro que hace cinco mediciones del contenido 
de carbono (en ppm) de cierta placa de silicio en cada uno de 
dos días sucesivos. Los resultados fueron: 


Día 1: 2.1321 2.1385 2.0985 2.0941 2.0680 
Día 2: 2.0853 2.1476 2.0733 2.1194 2.0717 


¿Puede concluir que la calibración del espectrómetro ha 
cambiado del primero al segundo días? 
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6. Dos pesas, cada una etiquetada con 100 g, se pesan varias 
veces en la misma balanza. Los resultados, en unidades de 
pg arriba de 100 g, fueron: 


Primera pesa: 53 88 89 62 39 66 
Segunda pesa: 23 39 28 2 49 


En virtud de que se utilizó la misma balanza para ambas pe- 
sas, y de que éstas son similares, es razonable suponer que 
la varianza en los pesos no depende del objeto que se está 
pesando. ¿Se puede concluir que las pesas son diferentes? 


7. El artículo “Mechanical Grading of Oak Timbers” (D. Kret- 
schmann y D. Green, en Journal of Materials in Civil Engi- 
neering, 1999:91-97) presenta las mediciones finales de la 
fuerza compresiva, en MPa, para el roble verde de siete por 
nueve maderas de roble mezcladas de Virginia Occidental y 
Pensilvania. Para 11 elementos de madera de grado 1, la 
fuerza compresiva promedio fue de 22.1 con desviación es- 
tándar de 4.09. Para siete elementos de madera de grado 2, 
la fuerza compresiva promedio fue 20.4 con desviación es- 
tándar de 3.08. ¿Puede concluir que la media de la fuerza 
compresiva para la madera de grado 1 es mayor que la de 
grado 2? 


8. Se comparan dos métodos para medir el calor molar de fu- 
sión del agua. Diez mediciones realizadas con el método A 
tienen una media de 6.02 kilojoules por mole (kJ/mol) con 
desviación estándar de 0.02 (kJ/mol). Cinco mediciones 


10. 


11. 


12. 


13. 


realizadas con el método B tienen una media de 6.00 kJ/mol 
y desviación estándar de 0.01 kJ/mol. ¿Puede concluir que 
la media de las mediciones difiere entre los dos métodos? 


Con referencia al ejercicio 8 de la sección 5.6, ¿puede con- 
cluir que las capacidades caloríficas del carbón de las dos 
minas son diferentes? 


Considerando el ejercicio 2 de la sección 5.6, ¿puede con- 
cluir que más de 0.1 ¡yg se absorbe entre 30 y 60 minutos 
después de la exposición? 


Considerando el ejercicio 4 de la sección 5.6: 


a) ¿Puede concluir que la media de la frecuencia de muta- 
ción para hombres de 60 años de edad es mayor que pa- 
ra hombres de 20? 


b) ¿Puede concluir que la media de la frecuencia de muta- 
ción para hombres de 60 años de edad es mayor a 25 se- 
cuencias por ug que para varones de 20? 


Considerando el ejercicio 9 de la sección 5.6, ¿puede con- 
cluir que la media de la fuerza de ruptura es mayor para pa- 
los de hockey hechos con el compuesto B? 


En relación con el ejercicio 10 de la sección 5.6, ¿puede 
concluir que la media del coeficiente de permeabilidad en 
60*C es diferente que la de 61*C? 


14. El siguiente resultado de MINITAB presenta los resultados de una prueba de hipótesis para la diferencia uz — uy entre dos me- 


dias poblacionales. 


Two-sample T for X vs Y 


N Mean StDev SE Mean 
X 10 39.31 8.71 2.8 
Y 10 29.12 4.79 15 
Difference = mu (X) — mu (Y) 
Estimate for difference: 10.1974 


95% lower bound for difference: 
T-Test of difference = 0 (vs >): 


4.6333 
T-Value = 3.25 


P-Value = 0.003 DF = 13 


a) ¿Ésta es una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


c) ¿Puede A, ser rechazada a un nivel de 1%? ¿Cómo justifica su respuesta? 


6.8 Pruebas de hipótesis con datos apareados 
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15. El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para la diferencia uy — ¡uy entre dos me- 
dias poblacionales. Faltan algunos de los números. Complete los números del (a) al (d). 


Two-sample T for X vs Y 


Difference 


Mean StDev SE Mean 
1.755 0.482 (a) 
3.239 (b) 0.094 
= mu (X) — mu (Y) 
Estimate for difference: (c) 
95% Cl for difference: (-1.99996, -0.96791) 
T-Test of difference = 0 (vs not =): T-Value = (d) P-Value = 0.000 DF = 7 


6.8 Pruebas de hipótesis con datos apareados 


En la sección 5.7 se observó que algunas veces es mejor diseñar un experimento de dos mues- 
tras, por lo que cada elemento en una muestra está apareado con un elemento en la otra. En 
esta sección se presenta un método para las pruebas de hipótesis que implica la diferencia en- 
tre dos medias poblacionales con base en datos apareados. Se inicia con un ejemplo. 

Las emisiones de materia partícula (MP) de los automóviles son un problema ambien- 
tal serio. Se eligieron aleatoriamente ocho vehículos de una flota, y se midieron sus emisio- 
nes durante su recorrido en autopista y en condiciones de arranque y frenado; además, se 
calcularon las diferencias en ambas situaciones. Los resultados, en miligramos de partículas 
por galón de combustible, fueron los siguientes: 


Vehículo 
1 2 3 4 5 6 1 8 
Arranque y frenado 1 500 870 1120 1250 3 460 1110 1120 880 
Recorrido en autopista 941 456 893 1060 3107 1339 1346 644 
Diferencia 559 414 227 190 353 229 —226 236 


¿Se puede concluir que la media del nivel de emisiones es menor para el recorrido en auto- 
pista que para el arranque y frenado? 

La idea básica detrás de la construcción de la prueba de hipótesis en este ejemplo es la 
misma que la idea detrás de la construcción de los intervalos de confianza para los datos apa- 
reados de la sección 5.7. Se trata de la colección de diferencias como una sola muestra alea- 
toria de una población de diferencias. La media poblacional se denota con uy y la desviación 
estándar con dp. Hay solamente ocho diferencias, de ellas una es muestra pequeña. Si se su- 
pone que la población de diferencias es aproximadamente normal, se puede utilizar la prueba 
t de Student, como se presentó en la sección 6.4. 
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El valor observado de la media muestral de diferencias es D = 190.5. La desviación es- 
tándar muestral es s, = 284.1. Las hipótesis nula y alternativa son 


Ho:4p<0 contra H¡:up >0 


El estadístico de prueba es 


D-0 190.5—0 


sp/yn  284.1/48 


fi= 


La distribución nula del estadístico de prueba es la £ de Student con siete grados de libertad. La 
figura 6.16 presenta la distribución nula e indica la ubicación del estadístico de prueba. Ésta 
es una prueba de una cola. La tabla £ indica que 5% del área en la cola corresponde a un va- 
lor £ de 1.895, muy cerca del valor observado de 1.897. El P-valor es aproximadamente 0.05. 
El siguiente resultado de computadora (de MINITAB) presenta este resultado. 


Paired T-Test and CI: StopGo, Highway 


Paired T for StopGo - Highway 


N Mean StDev SE Mean 
StopGo 8 1413.75 850.780 300.796 
Highway 8 1223.25 820.850 290.214 
Difference 8 190.50 284.104 100.446 


95% lower bound for mean difference: 0.197215 
T-Test of mean difference = 0 (vs > 0): 
T-Value = 1.90 P-Value = 0.050 


Observe que el límite inferior de 95% es apenas consistente con la hipótesis alternativa. Esto 
último indica que el P-valor sólo es apenas menor que 0.05 (aunque está dado por 0.050 con 
dos dígitos significativos). 


P=0.05 


0 1.897 


FIGURA 6.16 La distribución nula de 1 = (D—0)/(sp/vV/8) es t,. El valor observado de 
t, correspondiente a los valores observados D = 190.5 y Ss, = 284.1, es 1.897. Si Hy es ver- 
dadera, la probabilidad que f tome un valor tan extremo o más extremo que el observado 
está muy cercano a 0.05. 
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Mo: 


Hipótesis alternativa 


HA: Mp > Mo 
HA: Hp < Mo 
HA: Mp + Mo 


Sea (X;, Y), ... , (X,, Y, ) una muestra de pares ordenados cuyas diferencias D,, . 
D,, son muestra de una población normal con media up. 
Para probar una hipótesis nula de la forma AH: py E My, Ho: Mp = Mo» O Ho: Mp = 


Ml Se calcula el estadístico de prueba £ = 


Do 


sp/yn' 


E Se calcula el P-valor. Éste es un área debajo la curva £ de Student con n — 1 gra- 
dos de libertad, que depende de la hipótesis alternativa de la siguiente manera: 


P-valor 


Área a la derecha de £ 
Área a la izquierda de 1 


Suma de las áreas en las colas correspondientes a t y —1 


E Sila muestra es grande, la D;, necesaria no está normalmente distribuida, el 


estadístico de prueba es z = , y se debe realizar la prueba z. 


A 
sp/y/n 


Ejercicios para la sección 6.8 


1. Los músculos se flexionan cuando se estimulan a través de 


impulsos eléctricos en puntos motores (puntos en el múscu- 
lo) o en nervios. El artículo “Force Assessment of the Sti- 
mulated Arm Flexors: Quantification of Contractile 
Properties” (J. Hong y P. laizzo, en Journal of Medical En- 
gineering and Technology, 2002:28-35) informa acerca de 
un estudio en el que ambos métodos se aplicaban a las re- 
giones superiores del brazo de cada una de las partes. Se 
midió el tiempo de latencia (tiempo entre el estímulo y la 
contracción) (en milésimas de segundo) para cada parte. 
Los resultados para siete partes se presentan en la siguiente 
tabla (se ha eliminado un dato atípico). 


Parte 


112.3.45.6 7 


Nervio 59 357 58 38 53 47 51 
Punto motriz 56 52 36 32 47 42 48 
Diferencia 3.5. .2.66 5 3 


¿Puede concluir que hay una diferencia en el periodo de la- 
tencia entre el punto motor y el estímulo nervioso? 


. La maniobra de Valsalva implica soplar en un tubo cerrado 


con el fin de crear presión en las vías respiratorias. La im- 
pedancia cardiográfica se utiliza durante esta maniobra pa- 
ra evaluar la función cardiaca. El artículo “Impedance 
Cardiographic Measurement of the Physiological Response 
to the Valsalva Manoeuvre” (R. Patterson y J. Zhang, en 
Medical and Biological Engineering and Computing, 
2003:40-43) presenta un estudio en el cual se midió el co- 
ciente de impedancia para cada una de las 11 partes, tanto 
en posición de pie como acostada. Los resultados de la pre- 
sión de una vía aérea de 10 mmHg se presentan en la si- 
guiente tabla. 
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Parte De pie Acostada Diferencia 
1 1.45 0.98 0.47 
2 1.71 1.42 0.29 
3 1.81 0.70 1.11 
4 1.01 1.10 —0.09 
5 0.96 0.78 0.18 
6 0.83 0.54 0.29 
7 1.23 1.34 —0.11 
8 1.00 0.72 0.28 
9 0.80 0.75 0.05 

10 1.03 0.82 0.21 
11 1.39 0.60 0.79 


¿Puede concluir que hay diferencia entre la media del co- 
ciente de la impedancia medida en las posiciones de pie y 
sentada? 


3. Un proceso de grabado en seco se utiliza para grabar dióxi- 
do de silicio (SiO,) fuera de placas de silicio. Un ingeniero 
desea estudiar la uniformidad del grabado a través de la su- 
perficie de la placa. Se muestrea un total de diez placas des- 
pués del grabado, y se miden las tasas de grabado (en 
Á/minuto) en dos sitios diferentes, uno cerca del centro de 
la placa y otro casi en el borde. Los resultados se presentan 
en la tabla siguiente. 


Placa Centro Borde 
1 586 582 
2 568 569 
3 587 587 
4 550 543 
5 543 540 
6 552 548 
7 562 563 
8 317 572 
9 538 559 

10 571 566 


¿Puede concluir que las tasas de grabado difieren entre el 
centro y el borde? 


4. Se comparan dos microprocesadores en una muestra de seis 
códigos de puntos de referencia para determinar si hay una 
diferencia en la rapidez. Los tiempos (en segundos) utiliza- 
dos para cada procesador en cada código están dados en la 
tabla siguiente. 


Código 
1 2 3 4 5 6 


Procesador A 27.2 18.1 27.2 19.7 24.5 22.1 
Procesador B 24.1 19.3 26.8 20.1 27.6 29.8 


¿Puede concluir que las medias de la rapidez de ambos pro- 
cesadores son diferentes? 


5. Se midió la fuerza compresiva, en kilopascales, para cada 
uno de cinco bloques de concreto, tanto tres como seis días 
después de verterlos. En la siguiente tabla se presentan los 


datos. 
Bloque 
1 2 3 4 5 
Después 
de tres días 1341 1316 1352 1355 1327 
Después 
de seis días 1376 1373 1366 1384 1358 


¿Puede concluir que la media de la fuerza después de seis 
días es mayor que la media de la fuerza después de tres 
días? 


6. Considerando el ejercicio 3 de la sección 5.7, ¿puede con- 
cluir que la balanza 2 registra, en promedio, más peso que 
la balanza 1? 


7. Teniendo en cuenta el ejercicio 4 de la sección 5.7, ¿puede 
concluir que hay una diferencia en la tensión entre los per- 
nos 1 y 8? 


8. Considerando el ejercicio 7 de la sección 5.7: 


a) ¿Puede concluir que la media de los tiempos de vida de 
los patines de los frenos traseros es mayor que la de los 
delanteros? 


b) ¿Puede concluir que la media de los tiempos de vida de 
los patines de los frenos traseros es mayor que la de los 
frenos delanteros en más de diez mil millas? 


9. La directiva de una compañía de taxis está tratando de deci- 
dir si debe cambiar de neumáticos normales a neumáticos 
radiales para mejorar el ahorro de combustible. Se equipa- 
ron cada uno de los diez taxis con uno de los dos tipos de 
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neumáticos y se condujeron en una trayectoria de prueba. a) Debido a que el cambio de neumáticos en la flota de ta- 
Sin cambiar de conductores, se seleccionó el tipo de neumá- xis es caro, la directiva no quiere cambiar a menos que 
ticos y se repitió la trayectoria de prueba. El ahorro de com- una prueba de hipótesis proporcione evidencias de que 


bustible (en milla/galón) para los diez automóviles es: 


Automóvil Radial 


mejorará el millaje. Establezca las hipótesis nula y alter- 
nativa adecuadas, y encuentre el P-valor. 


b) Un análisis costo-beneficio muestra que será provecho- 


32.1 
36.1 
32.3 
29.5 
34.3 
31.9 
33.4 
34.6 
33.2 
32.7 


O0V00IDU AUN 


— 


Normal so cambiar a neumáticos radiales si la media de la me- 
27.1 jora del millaje es mayor a dos millas/galón. Establezca 
31.5 las hipótesis nula y alternativa adecuadas, y determine el 
30.4 P-valor, para una prueba de hipótesis diseñada como ba- 
26.9 se de la decisión de cambiar. 

29.9 
28.7 
30.2 
31.8 
33.6 
29.9 


10. El siguiente resultado MINITAB presenta los resultados de una prueba de hipótesis para la diferencia uy — ¡uy entre dos me- 


11. 


dias poblacionales. 


Paired T for X — Y 


N Mean 
X 12 134.233 
Y 12 100.601 


Difference 12 33.6316 


95% lower bound for mean difference: 2.7793 
T-Test of mean difference = 0 (vs > 0): T-Value = 1.96 P-Value = 0.038 


StDev SE Mean 
68.376 19.739 
94.583 27.304 

59.5113 17.1794 


a) ¿Es ésta una prueba de una o de dos colas? 


b) ¿Cuál es la hipótesis nula? 


Cc) ¿Puede A, ser rechazada a un nivel de 1%? ¿Cómo justifica su respuesta? 


d) Utilice el resultado y una tabla adecuada para calcular un intervalo de confianza de 98% para ux — My. 


El siguiente resultado MINITAB presenta el desenlace de una prueba de hipótesis para la diferencia uz — uy entre dos medias 
poblacionales. Faltan algunos números. Complete los números del (a) al (d). 


Paired T for X — Y 


N Mean 
XK 7 12.4141 
Y 7 8.3476 
Difference 7 (c) 


StDev SE Mean 
2.9235 (a) 

(b) 1.0764 

3.16758 1.19723 


95% lower bound for mean difference: 1.74006 
T-Test of mean difference = O 


(vs > 0): T-Value = (d) P-Value = 0.007 
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6.9 Pruebas de hipótesis con distribuciones libres 


Las pruebas £ de Student descritas en las secciones 6.4 y 6.7 requieren que las muestras pro- 
vengan de poblaciones normales. Las pruebas con distribuciones libres obtienen su nombre 
del hecho de que no se requiere que las muestras provengan de ninguna distribución especí- 
fica. Mientras que pruebas con distribuciones libres requieren de supuestos para su validez, 
éstos son un poco menos restrictivos que los necesarios para la prueba f. Las pruebas con dis- 
tribuciones libres son en ocasiones llamadas pruebas no paramétricas. 

En esta sección se analizan dos pruebas con distribuciones libres. La primera, prueba 
del rango con signo de Wilcoxon, es útil para una media poblacional, similar a la prueba £ 
muestral analizada en la sección 6.4. La segunda, prueba de la suma del rango de Wilco- 
xon, o prueba de Mann-Whitney, es similar a la prueba £ de dos muestras analizada en la 
sección 6.7. 


La prueba del rango con signo de Wilcoxon 


Esta prueba se muestra con un ejemplo. El contenido de níquel, en partes de miles por peso, 
se mide para seis soldaduras. Los resultados son 9.3, 0.9, 9.0, 21.7, 11.5 y 13.9. Sea y la me- 
dia del contenido de níquel para este tipo de soldadura. Se desea probar Ay: y = 12 contra 
HA: p < 12. La prueba £ de Student no es adecuada porque hay dos datos atípicos, 0.9 y 21.7, 
que indican que la población no es normal. La prueba del rango con signo de Wilcoxon se 
puede utilizar en esta situación. Esta prueba no exige que la población sea normal. Sin em- 
bargo, requiere que sea continua (en vez de discreta), y que la función de densidad de proba- 
bilidad sea simétrica. (La normal es un caso especial de una población simétrica continua.) 
La muestra dada proviene de una población continua, y la presencia de datos atípicos en cual- 
quier lado hace razonable suponer que la población es casi simétrica. Por tanto, se procede 
como se muestra a continuación. 

Bajo H,, la media poblacional es 4 = 12. Ya que se supone que la población es simé- 
trica, también la mediana poblacional es 12. Para calcular el estadístico de la suma del rango 
se inicia restando 12 a cada observación de la muestra con el fin de obtener las diferencias. A 
la diferencia más cercana a 0, ignorando el signo, se le asigna un rango de 1. A la siguiente 
diferencia más cercana a 0, ignorando nuevamente el signo, se le asigna un rango de 2, y así 
sucesivamente. Por último, a los rangos que les corresponden diferencias negativas se les 
asignan signos negativos. La siguiente tabla muestra los resultados. 


Rango 
x x-— 12 con signo 
11.5 —0.5 -1 
13.9 1.9 2 
9.3 -2.7 -3 
9.0 —3.0 -4 
21.7 9.7 5 
0.9 —11.1 —6 


La suma de los rangos positivos se denota con S,, y la suma de los valores absolutos de 
los rangos negativos con S_. Tanto $, como S_ se pueden utilizar como un estadístico de prue- 
ba; se utilizará S,. En este ejemplo S, =2+5=7,yS_=1+3+4+56= 14. Observe 
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que debido a que el tamaño de muestra es 6, necesariamente S¿ +S5_=1+2+3+4+5 
+ 6 = 21. Para cualquier muestra, éste es el caso S¿ + $_=1>+2+-*-+n=mnm(n+ 1/2. 
En algunos casos, donde hay muchos más rangos positivos que rangos negativos, es más fácil 
calcular primero a S_ al sumar los rangos negativos y después calcular S, = n(n + 1)/2 — S_. 

Las figuras 6.17 y 6.18 muestran cómo se puede utilizar S, como un estadístico de prue- 
ba. En la figura 6.17, yu > 12. Para esta distribución las diferencias positivas son más proba- 
bles que las negativas y tienden a ser más grandes en magnitud. Por tanto, es probable que los 
rangos positivos sean más grandes tanto en número como en magnitud que los rangos nega- 
tivos, por lo que es posible que S, invierta la situación. Aquí los rangos positivos son menos 
en número y menores en magnitud, por lo que S, es pequeño. 


——_ IA A 
12 m 


FIGURA 6.17 La mediana verdadera es mayor que 12. Es más probable que las observa- 
ciones de la muestra estén por arriba que por debajo de 12. Además, las observaciones arri- 
ba de 12 tenderán a tener diferencias mayores de 12 que las observaciones debajo de 12. 
Por tanto, S, probablemente es grande. 


—_aa A _ OO 
Y 12 


FIGURA 6.18 La mediana verdadera es menor de 12. Es más probable que las observa- 
ciones de la muestra estén por debajo de 12 que por arriba de 12. Además, las observacio- 
nes debajo de 12 tenderán a tener diferencias mayores de 12, que las observaciones arriba 
de 12. Por tanto, S, probablemente es pequeño. 
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Se observa que, en general, los valores grandes de S, proporcionan evidencia contra 
una hipótesis nula de la forma A¿: 4 < My, mientras que valores pequeños de $, proporcio- 
narán evidencia en contra de una hipótesis nula de la forma A: f = Mo. 

En este ejemplo, la hipótesis nula es A,: 4 = 12, por eso un valor pequeño de S, pro- 
porcionará evidencia en contra de A. Se observa que S, = 7. El P-valor es la probabilidad 
de observar un valor de S, que es menor o igual a 7 cuando H, es verdadera. La tabla A.4 (en 
el apéndice A) presenta ciertas probabilidades para la distribución nula de S,. Al consultar es- 
ta tabla con el tamaño de muestra n = 6, se encuentra la probabilidad de observar un valor de 
4 o menor de 0.1094. La probabilidad de observar un valor de 7 o menor debe ser más gran- 
de que esto último, por lo que se concluye que P > 0.1094; por consiguiente, no se rechaza 
Ho. 


En el ejemplo analizado previamente se midió el contenido de níquel para seis soldaduras de 
9.3, 0.9, 9.0, 21.7, 11.5 y 13.9. Utilice estos datos para probar Ay: 1 < 5 contra H;¡: u > 5. 


Solución 
La tabla de diferencias y los rangos con signos son: 


Rango 
x x-—.5  consigno 
9.0 40 1 
0.9 —-4.1 -2 
9.3 4.3 3 
11.5 6.5 4 
13.9 8.9 5 
21.7 16.7 6 


El valor observado del estadístico de prueba es S, = 19. Ya que la hipótesis nula es de la for- 
ma Ap: H < ug, valores grandes de S, proporcionan evidencia contra A. Por tanto, el P-va- 
lor es el área en la cola derecha de la distribución nula, correspondiendo a valores igual o 
superiores a 19. Al consultar la tabla A.4 se encuentra que el P-valor es 0.0469. 


Utilice los datos del ejemplo 6.15 para probar Ay: 4 = 16 contra HA: q + 16. 
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Solución 
La tabla de diferencias y rangos con signos es: 


Rango 

x x-— 16 con signo 
13.9 —2.1 -1 
11.5 4,5 -2 
21.7 570) 3 

9.3 6.7 -4 

9.0 —7.0 =5 

0.9 —15.1 —6 


Puesto que la hipótesis nula es de la forma Hy: 4 = Mp, ésta es una prueba de dos colas. El 
valor observado del estadístico de prueba es S, = 3. Al consultar la tabla A.4, se encuentra 
que el área en la cola izquierda, correspondiente a valores menores que o iguales a 3, es 
0.0781. El P-valor es el doble de esta cantidad, ya que es la suma de áreas en dos colas igua- 
les. Por tanto, el P-valor es 2(0.0781) = 0.1562. 


Empates 


A veces dos o más de las cantidades a las cuales debe asignárseles rango tienen exactamente 
el mismo valor. Se dice que estas cantidades están empatadas. El método usual para tratar los 
empates es asignar a cada observación empatada el promedio de los rangos que habrían reci- 
bido si hubieran sido ligeramente diferentes. Por ejemplo, las cantidades 3, 4, 4, 5, 7 recibi- 
rían los rangos 1, 2.5, 2,5, 4, 5 y las cantidades 12, 15, 16, 16, 16, 20 recibirían los rangos 1, 
2, 4, 4, 4, 6. 


Diferencias de cero 


Si la media bajo Ay es uy y una de las observaciones es igual a uy, entonces su diferencia es 
0, que no es positivo ni negativo. Una observación igual a uy no puede recibir un rango con 
signo. El procedimiento adecuado consiste en eliminar estas observaciones de la muestra, y 
considerar que el tamaño de ésta se ha reducido como consecuencia del número de aquéllas. 
El ejemplo 6.17 sirve para ilustrar este punto. 


Utilice los datos del ejemplo 6.15 para probar Hp: 4 = 9 contra Hp: q + 9. 


Solución 
La tabla de diferencias y de rangos con signo es: 


Rango 

x x-— 9 con signo 

9.0 0.0 - 

9.3 0.3 1 
11.5 25 2 
13.9 4.9 3 

0.9 =8.1 4 
21.7 12.7 5 
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El valor del estadístico de prueba es S, = 11. El tamaño muestral para propósitos de la prue- 
ba es 5, ya que el valor 9.0 no tiene rango. Al ingresar a la tabla A.4 con tamaño muestral 5, 
se encuentra que S, = 12, el P-valor sería 2(0.1562) = 0.3124. Se concluye que para S, = 
11,P> 0.3124, 


Aproximación para muestras grandes 


Cuando el tamaño muestral n es grande, el estadístico de prueba S, está distribuido aproxi- 
madamente en forma normal. Una regla general es que la aproximación normal es buena si n 
> 20. Se puede demostrar mediante métodos avanzados que bajo A, S, tiene una media n(n 
+ 1)/4 y varianza n(n + 1)Qn + 1)/24. La prueba del rango con signo de Wilcoxon se reali- 
za cuando se calcula el puntaje z de S,, y después al usar la tabla normal para encontrar el 
P-valor. El puntaje z es 


Sy —n(n+ 1)/4 
¿Mini DOAF D/2 


El ejemplo 6.18 ilustra el método. 


El artículo “Exact Evaluation of Batch-Ordering Inventory Policies in Two-Echelon Supply 
Chains with Periodic Review” (G. Chacon, en Operations Research, 2001:79-98) presenta 
una evaluación de un reordenamiento de una política focal. Se estiman los costos para 32 
escenarios. Sea u la media del costo. Pruebe que A: y = 70 contra H,: 4 <70. Los datos, 
junto con las diferencias y los rangos con signo, se presentan en la tabla 6.1. 


TABLA 6.1 Datos para el ejemplo 6.18 


Rango Rango Rango 
x x — 70 con signo x x — 70 con signo x x — 70 con signo 
79.26 9.26 1 30.27 -39.73 -12 11.48 58.52 23 
80.79 10.79 2 22.39 47.61 -13 11.28 58.72 24 
82.07 12.07 3 118.39 48.39 14 10.08 59.92 25 
82.14 12.14 4 118.46 48.46 15 7.28 62.72 26 
57.19 -12.81 a) 20.32 49.68 -16 6.87 63.13 21 
55.86 -14.14 —6 16.69 53.31 -17 6.23 63.17 28 
42.08 27.92 1 16.50 -53.50 -18 4.57 65.43 -29 
41.78 28.22 8 15.95 54.05 -19 4.09 65.91 -30 
100.01 30.01 9 15.16 54.84 20 140.09 70.09 31 
100.36 30.36 10 14.22 55.78 —21 140.77 70.77 32 
30.46 39.54 -11 11.64 58.36 22 


Solución 
El tamaño de muestra es n = 32, por lo que la media es n(n + 1)/4 = 264 y la varianza es 
n(n + D)QGn + 1)/24 = 2 860. La suma de los rangos positivos es S, = 121. Se calcula 


te == is 
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Debido a que la hipótesis nula es de la forma H/: 4 = py, valores pequeños de S, proporcio- 
nan evidencias contra A¿. Por tanto, el P-valor es el área debajo de la curva normal a la iz- 
quierda de z = —2.67. Esta área, y por consiguiente, el P-valor, es 0.0038. 


La prueba de la suma del rango de Wilcoxon 


La prueba de la suma del rango de Wilcoxon, también llamada de Mann-Whitney, es útil pa- 
ra probar la diferencia en las medias poblacionales en ciertos casos donde las poblaciones no 
son normales. Son necesarias dos suposiciones. Primero, las poblaciones deben ser continuas. 
Segundo, sus funciones de densidad de probabilidad deben ser idénticas en forma y tamaño; 
la única diferencia posible entre ellas será su posición. Para describir la prueba, sea X,,..., 
X;,, una muestra aleatoria de una población y sea Y,,..., Y, una muestra aleatoria de la otra. 
Se adopta la notación convencional que cuando los tamaños muestrales no son iguales, la 
muestra menor se denotará mediante X,, ..., X,,. Por tanto, los tamaños muestrales son m y 
n, con m = n. Las medias poblacionales se denotan con uy y uy, respectivamente. 

La prueba se realiza ordenando los m + n valores obtenidos de la combinación de las 
dos muestras, y se asignan los rangos 1,2,...,m + na ellos. El estadístico de prueba, de- 
notado con W, representa la suma de los rangos correspondientes a X,,..., X,,. Debido a que 
las poblaciones son idénticas con la posible excepción de la posición, en consecuencia si uy 
< py, los valores en la muestra X tenderán a ser menores que aquellos en la muestra Y, por lo 
que la suma de los rangos W también tenderán a ser menores. Por un razonamiento similar, si 
px > My, W tenderá a ser mayor. Se muestra la prueba en el ejemplo 6.19. 


Se miden resistencias, en m£2, para cinco alambres de un tipo y seis de otro. Los resultados 
son: 

Xx: 36 28 29 20 38 

Ye 34 41 35 47 49 46 


Utilice la prueba de la suma del rango de Wilcoxon para probar A: 4x = py contra A: Ux < My. 


Solución 
Se ordenan los 11 valores y se les asignan rangos 


Valor Rango Muestra Valor Rango Muestra 
20 1 Xx 38 7 Xx 
28 2 Xx 41 8 Y 
29 3 Xx 46 9 Y 
34 4 Y 47 10 Y 
35 5 Y 49 11 Y 
36 6 XxX 


El estadístico de prueba W es la suma de los rangos que corresponden a los valores de X, por 
lo que W= 1 +2+3+63+37= 109. El P-valor se determina consultando la tabla A.5 (en 
el apéndice A). Se observa que valores pequeños de W proporcionan evidencia en contra de 
HA: Mx = py, por lo que el P-valor es el área en la cola izquierda de la distribución nula. Bus- 
cando en la tabla con m = 5 y n = 6 se encuentra que el área a la izquierda de W = 19 es 
0.0260. Éste es el P-valor. 
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Aproximación para muestras grandes 
Cuando ambos tamaños de muestra m y n son mayores que 8, se puede mostrar mediante mé- 
todos avanzados que la distribución nula del estadístico de prueba W es aproximadamente 
normal con media m(m + n + 1)/2 y la varianza mn(m + n + 1)/12. En estos casos la prue- 
ba se realiza al calcular el puntaje z de W, y después con la tabla normal para encontrar el 
P-valor. El puntaje z es 

W-—m(m+n+1)/2 

zZ= 
y/mním +n + 1)/12 


El ejemplo 6.20 ilustra el método. 


El artículo “Cost Analysis Between SABER and Design Bid Build Contracting Methods” (E. 
Henry y H. Brothers, en Journal of Construction Engineering and Management, 2001:359- 
366) presenta datos de costos de construcción para diez trabajos ofrecidos por el método tra- 
dicional (denotados por X) y 19 trabajos ofrecidos por un sistema experimental (denotados 
por Y). Los datos, en unidades de dólares por metro cuadrado, y sus rangos se presentan en la 
tabla 6.2. Pruebe que Aj: ux < py contra A;: uy >My. 


TABLA 6.2 Datos para el ejemplo 6.20 


Valor Rango Muestra Valor Rango Muestra 
57 1 X 613 16 X 
95 2 le 622 17 Y 

101 3 de 708 18 X 
118 4 Y 726 19 yO 
149 5 de 843 20 Y 
196 6 Y 908 21 Y 
200 7 Y 926 22 X 
233 8 04 943 23 Y 
243 9 Y 1 048 24 Y 
341 10 Y 1165 25 X 
419 11 Y 1293 26 Xx 
457 12 X 1593 27 Xx 
584 13 X 1952 28 X 
592 14 Y 2 424 29 Y 
594 15 Y 


Solución 

La suma de los rangos X es W= 1 + 12 + 13 + 16 + 18 + 22 + 25 + 26 + 27 + 28 = 
188. Los tamaños de muestra son m = 10 y n = 19. Se utiliza la aproximación normal y se 
calcula 


188 — 10(10+ 19 + 1)/2 


¿2 /1010900+ 19+ 19/12 
=1.74 
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Valores grandes de W proporcionan evidencias contra la hipótesis nula. Por tanto, el P-valor 
es el área debajo de la curva normal a la derecha de z = 1.74. De la tabla z se encuentra que 
el P-valor es 0.0409. 


Los métodos con distribuciones libres no están libres de supuestos 


Se debe señalar que los métodos con distribución libre presentados aquí requieren ciertos su- 
puestos para su validez. Desafortunadamente, esto último a veces se olvida en la práctica. Es 
tentador usar un procedimiento con distribución libre automáticamente en cualquier situación 
en la que la prueba £ de Student no parece estar justificada, y suponer que los resultados se- 
rán validos siempre que éste no sea el caso. Las suposiciones necesarias de simetría para la 
prueba del rango con signo y de formas idénticas y extensiones para la prueba de la suma del 
rango son, en realidad, algo restrictivas. Mientras que estas pruebas funcionan razonablemen- 
te bien en violaciones moderadas de estos supuestos, no son aplicables de modo universal. 


Ejercicios para la sección 6.9 


1. El artículo “Wastewater Treatment Sludge as a Raw Mate- 


b) ¿Puede concluir que la media del espesor es menor a 


rial for the Production of Bacillus thuringiensis Based Bio- 
pesticides” (M. Tirado Montiel, R. Tyagi y J. Valero, en 
Water Research 2001:3807-3816) presenta mediciones de 
sólidos totales, en g/l, para siete muestras de lodo. Los re- 
sultados (redondeados al gramo más cercano) son 20, 5, 25, 
43, 24, 21 y 32. Suponga que la distribución de sólidos to- 
tales es casi simétrica. 


a) ¿Puede concluir que la media de la concentración de só- 
lidos totales es mayor que 14 g/1? Calcule el estadístico 
de prueba adecuado y determine el P-valor. 


b) ¿Puede concluir que la media de la concentración de só- 
lidos totales es menor que 30 g/l? Calcule el estadístico 
de prueba adecuado y determine el P-valor. 


c) Un ingeniero ambiental afirma que la media de la con- 
centración de sólidos totales es igual a 18 g/l. ¿Los da- 
tos refutan esta afirmación? 


. Se mide el espesor de ocho almohadillas diseñadas para 
emplearlas en monturas de motores de aviones. Los resulta- 
dos, en mm, son 41.83, 41.01, 42.68, 41.37, 41.83, 40.50, 
41.70 y 41.42. Suponga que los espesores son una muestra 
de distribución casi simétrica. 


a) ¿Puede concluir que la media del espesor es mayor a 41 
mm? Calcule el estadístico de prueba adecuado y deter- 
mine el P-valor. 


41.8 mm? Calcule el estadístico de prueba adecuado y 
determine el P-valor. 


c) El espesor objetivo es 42 mm, ¿puede concluir que la 
media del espesor difiere del valor objetivo? Calcule el 
estadístico de prueba adecuado y encuentre el P-valor. 


. El artículo “Reaction Modeling and Optimization Using 


Neural Networks and Genetic Algorithms: Case Study In- 
volving TS-1-Catalyzed Hydroxylation of Benzene” (S. 
Nandi, P. Mukherjee y cols., en Industrial and Engineering 
Chemistry Research, 2002:2159-2169) presenta conversio- 
nes de benceno (en porcentaje molar) para 24 reacciones de 
hidroxilación de benceno diferentes. Los resultados son 


52.3 41.1 28.8 67.8 78.6 723 9.1 19.0 
30.3 41.00 63.0 80.8 26.8 37.3 38.1 33.6 
14.3 30.1 33.4 36.2 34.6 40.0 81.2 59.4. 


a) ¿Puede concluir que la media de conversión es menor de 
45? Calcule el estadístico de prueba adecuado y deter- 
mine el P-valor. 


b) ¿Puede concluir que la media de conversión es mayor de 
30? Calcule el estadístico de prueba adecuado y deter- 
mine el P-valor. 


c) ¿Puede concluir que la media de conversión es diferen- 
te de 55? Calcule el estadístico de prueba adecuado y 
determine el P-valor. 
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4. El artículo “Abyssal Peridotites > 3 800 Ma from Southern 


West Greenland: Field Relationships, Petrography, Geoch- 
ronology, Whole-Rock and Mineral Chemistry of Dunite 
and Harzburgite Inclusions in the Itsaq Gneiss Complex” 
(C. Friend, V. Bennett y A. Nutman, en Contributions to Mi- 
neral Petrology, 2002:71-92) presenta concentraciones de 
dióxido de silicio (SiO») (en porcentaje de peso) para diez 
peridotitas. Los resultados son: 


40.57 41.48 40.76 39.68 43.68 43.53 
43.76 44.86 43.06 46.14. 


a) ¿Puede concluir que la media de la concentración es ma- 
yor a 41? Calcule el estadístico de prueba adecuado y 
determine el P-valor. 


b) ¿Puede concluir que la media de la concentración es me- 
nor a 43? Calcule el estadístico de prueba adecuado y 
determine el P-valor. 


c) ¿Puede concluir que la media de la concentración difie- 
re de 44? Calcule el estadístico de prueba adecuado y 
determine el P-valor. 


. Este ejercicio muestra que la prueba del rango con signo se 
puede utilizar con datos apareados. Se comparan dos cali- 
bradores que miden la profundidad de huella de los neumá- 
ticos. Se miden diez diferentes puntos en un neumático una 
vez con cada calibrador. Los resultados, en mm, se presen- 
tan en la tabla siguiente. 


Punto Calibrador 1 Calibrador 2 Diferencia 


1 3.95 3.80 0.15 
2 3,23 3.30 —0.07 
3 3.60 3.59 0.01 
+ 3.48 3.61 0.13 
5 3.89 3.88 0.01 
6 3.76 3.73 0.03 
7 3.45 3.56 0.11 
8 3.01 3.02 —0.01 
9 3.82 3.1] 0.05 
10 3.44 3.49 —0.05 


Suponga que las diferencias son una muestra de una pobla- 
ción casi simétrica con media q. Utilice la prueba del ran- 
go con signo de Wilcoxon para probar H,: 4 = 0 contra H;: 
p 0. 


6. El artículo “n-Nonane Hydroconversion on Ni and Pt Con- 


taining HMFL HMOR and HBEA” (G. Kinger y H. Vinek, 
en Applied Catalysis A: General, 2002:139-149) presenta 
tasas de hidroconversión (en ¡umol/g-s) de n nonanos en 
ambos catalizadores HMFI y HBEA. Los resultados son: 


HMFI: 0.43 0.93 1.91 2.56 3.72 6.19 11.00 
HBEA: 0.73 1.12 1.24 2.93 


¿Puede concluir que la media de la tasa es diferente entre 
los dos catalizadores? 


. Se está comparando un nuevo tratamiento posquirúrgico 


con un tratamiento usual. Siete personas reciben el nuevo tra- 
tamiento, mientras que otras siete (los testigos) reciben el 
tratamiento usual. Los tiempos de recuperación, en días, 
fueron: 


Tratamiento (O): 12 13 15 19 20 21 27 
Testigo (Y): 18 23 24 30 32 35 40 


¿Puede concluir que la media de la tasa es diferente entre el 
tratamiento y el testigo? 


. En un experimento para determinar el efecto del tiempo de 


cura en la fuerza compresiva de bloques de concreto, dos 
muestras de 15 bloques estaban preparadas en forma idén- 
tica excepto por el tiempo de cura. Los bloques en una 
muestra se curaron durante dos días, mientras que los blo- 
ques en la otra lo fueron durante seis días. Las fuerzas com- 
presivas de los bloques, en MPa, son las siguientes: 


Curados dos días (X): 1326 1302 1314 1270 
1287 1328 1318 1296 
1306 1329 1255 1310 
1255 1291 1280 


Curados seis días (Y): 1387 1301 1376 1397 
1399 1378 1343 1349 
1321 1364 1332 1396 
1372 1341 1374 


¿Puede concluir que la media de la fuerza es mayor para los 
bloques curados durante seis días? 


. En una comparación de la eficacia del material aprendido 


en clases tradicionales, 12 estudiantes tomaron un curso de 
administración de empresas en línea, mientras que 14 lo to- 
maron en el salón de clases. Las calificaciones del examen 
final fueron: 
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En línea: 66 75 85 64 88 77 74 10. Una mujer que se ha cambiado a una nueva casa está tratan- 
91 72 69 77 83 do de determinar cuál de dos rutas a su trabajo tiene el tiem- 
po de conducción promedio más corto. Los tiempos en 
minutos para seis viajes en la ruta A y cinco en la ruta B 
En el salón de clases: 80 83 64 81 75 80 86 son: 
8l 51 64 59 85 74 77 
A: 160 15.7 164 159 16.2 16.3 
B: 172 169 16.1 198 16.7 


¿Puede concluir que la media de la calificación difiere entre ¿Puede concluir que la media del tiempo es menor para la 
los dos tipos de cursos? ruta A? 


6.10 La prueba Ji cuadrada 


En la sección 4.1 se estudió el ensayo de Bernoulli, que representa un proceso con dos resul- 
tados posibles, indicados como “éxito” y “fracaso”. Si se realiza un número de ensayos de 
Bernoulli, y se cuenta el número de éxitos, se puede probar la hipótesis nula de que la proba- 
bilidad p de éxito sea igual a un valor preespecificado pp. Esto último se trató en la sección 
6.3. Si se hacen dos conjuntos de ensayos de Bernoulli, con probabilidad de éxito p, para el 
primer conjunto y p» para el segundo, se puede probar la hipótesis nula que p, = p». Lo ante- 
rior se trató en la sección 6.6. 

Una generalización del ensayo de Bernoulli es el ensayo multinomial (véase la sección 
4.4): un experimento que puede dar como resultado cualquiera de los k resultados, donde k = 
2. Las probabilidades de los k resultados se denotan mediante p;, ...., pz Por ejemplo, el lan- 
zamiento de un dado constituye un ensayo multinomial con seis resultados 1, 2, 3, 4, 5, 6; y 
probabilidades p, = p, = p3 = Pa = ps = Po = 1/6. En esta sección se generalizan las prue- 
bas para una probabilidad de Bernoulli a los ensayos multinomiales. Se inicia con un ejem- 
plo en el que se prueba la hipótesis nula de que las probabilidades multinomiales p,, p»,..., 
p son iguales a un conjunto preespecificado de valores, Pp, Po2, - - - > Po por lo que la hipó- 
tesis nula tiene la forma Ho: P; = Por» Po = Poo» - - - > Pr = Por 

Imagine que un jugador quiere probar un dado para ver si se desvía de su honestidad. 
Sea p; la probabilidad de que salga el número ¡. La hipótesis nula establecerá que el dado es 
honesto, por lo que las probabilidades especificadas bajo la hipótesis nula son py, = Po» = Poz 

Pos = Pos = Pos = 1/6. La hipótesis nula es Ho: p, = : ++ = pó = 1/6. 

El jugador lanza el dado 600 veces y obtiene los resultados que se muestran en la tabla 
6.3, en la columna “Observados”. Los resultados obtenidos se denominan valores observa- 
dos. Para probar la hipótesis nula se construye una segunda columna, llamada “Esperados”. 
Esta columna contiene los valores esperados. El valor esperado para un resultado dado es la 
media del número de ensayos que resultarían en ese resultado si Af fuera verdadera. Para calcu- 
lar los valores esperados, sea N el número total de ensayos. (En el ejemplo del dado, N = 600.) 
Cuando A, es verdadera, la probabilidad de que en un ensayo salga el resultado ¡ es pp, por 
lo que el número esperado de ensayos en los que sale el resultado ¡ es Npp;. En el ejemplo del 
dado, el número esperado de ensayos para cada resultado es 100. 
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TABLA 6.3 Valores observados y esperados 
para 600 lanzamientos de un dado 


Categoría Observados —Esperados 


1 115 100 
2 97 100 
3 91 100 
4 101 100 
5 110 100 
6 86 100 
Total 600 600 


La idea detrás de la prueba de hipótesis es que si H, es verdadera, entonces los valores 
observados y esperados están probablemente cercanos entre sí. Por tanto, se construirá un es- 
tadístico de prueba que mida la cercanía entre los valores observados y los esperados. El esta- 
dístico se llama estadístico Ji cuadrada. Para definirlo, sea k el número de resultados (k = 6 
en el ejemplo del dado), y sean O, y E, los números observados y esperados de los ensayos, 
respectivamente, que salen en el resultado ¿. El estadístico Ji cuadrada es 


k 


(O; — E¡Y 
A (6.6) 


i=1 


Entre mayor sea el valor Le, más fuerte es la evidencia contra A,. Para determinar el P-valor 
para la prueba se debe conocer la distribución nula de este estadístico de prueba. En general, 
no se puede determinar exactamente la distribución nula. Sin embargo, cuando los valores es- 
perados son todos grandes, una buena aproximación está disponible. Ésta se llama distribu- 
ción Ji cuadrada con k — 1 grados de libertad, que se denota mediante VA - ¡- Observe que 
el número de grados de libertad es uno menos que el número de categorías. El uso de la dis- 
tribución Ji cuadrada es adecuado siempre que todos los valores esperados sean mayores que 
o iguales a 5. 

En el apéndice A se proporciona una tabla para la distribución Ji cuadrada (tabla A.6). 
La tabla proporciona valores para ciertos cuantiles, o puntos de porcentajes superiores, para 
muchas elecciones de grados de libertad. Como ejemplo, la figura 6.19 presenta la función de 
densidad de probabilidad de la distribución o: El 5% superior de la distribución está som- 
breado. Para encontrar el punto 5% superior en la tabla, busque abajo de q; = 0.05 y en gra- 
dos de libertad v = 10. El valor es 18.307. 

Ahora se calcula el valor de la estadística Ji cuadrada para los datos en la tabla 6.3. El 
número de grados de libertad es 5 (uno menos que el número de resultados). Utilizando la 
ecuación (6.6), el valor del estadístico es 


2 (115-100) y $6 100)? 


100 100 
= 2.25+---+1.96 


= 6.12 


X 
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5% 


0 18.307 


FIGURA 6.19 Función de densidad de probabilidad de la distribución zo. El punto supe- 
rior de 5% es 18.307. [Véase la tabla Ji cuadrada (Tabla A.6) en el Apéndice A.] 


Determinar el P-valor para el estadístico de prueba requiere observar que todos los va- 
lores esperados son iguales o mayores que 5, por lo que es adecuado utilizar la distribución 
Ji cuadrada. Se consulta la tabla Ji cuadrada con cinco grados de libertad. El punto 10% su- 
perior es 9.236. Se concluye que P > 0.10. (Véase la figura 6.20.) No hay evidencias que su- 
gerir si el dado no es honesto. 


10% 


0 6.12 9.236 


FIGURA 6.20 Función de densidad de probabilidad de la distribución z¿. El valor obser- 
vado del estadístico de prueba es 6.12, El punto 10% superior es 9.236. Por tanto, el P-va- 
lor es mayor que 0.10. 


La prueba Ji cuadrada para la homogeneidad 


En el ejemplo anterior se probó la hipótesis nula de que las probabilidades de los resultados 
para un ensayo multinomial eran iguales al conjunto de valores preespecificados. A veces al- 
gunos ensayos multinomiales están dirigidos, cada uno con el mismo conjunto de resultados 
posibles. La hipótesis nula es que las probabilidades de los resultados son las mismas para ca- 
da experimento. Se presenta un ejemplo. 

Cuatro máquinas fabrican alfileres cilíndricos de acero. Los alfileres están sujetos a una 
especificación de diámetro. Un alfiler podría satisfacer la especificación, o ser demasiado an- 
gosto o demasiado grueso. Se muestrean alfileres de cada máquina y se cuenta su número en 
cada categoría. La tabla 6.4 presenta los resultados. 

La tabla 6.4 representa un ejemplo de una tabla de contingencia. Cada renglón espe- 
cifica una categoría respecto de un criterio (máquina, en este caso), y cada columna especifi- 
ca una categoría respecto de otro (el espesor, en este caso). Cada intersección de renglón y 
columna se llama celda, por lo que hay 12 celdas en la tabla 6.4. 
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TABLA 6.4 Números de alfileres observados en diferentes categorías, 
considerando una especificación del diámetro 


Muy Está Muy 
angosto bien grueso Total 
Máquina 1 10 102 8 120 
Máquina 2 34 161 5 200 
Máquina 3 12 79 9 100 
Máquina 4 10 60 10 80 
Total 66 402 32 500 


El número en la celda en la intersección del renglón i con la columna ¡ constituye el nú- 
mero de ensayos cuyo resultado estaba en la categoría del renglón ¡ y en la categoría de co- 
lumna ¡. Este número se llama valor observado para la celda ij. Observe que se han incluido 
los totales de los valores observados para cada renglón y columna. Éstos se llaman margina- 
les totales. 

La hipótesis nula es que la proporción de alfileres muy angostos, está bien o muy grue- 
sos es la misma para todas las máquinas. De manera general, la hipótesis nula dice que no im- 
porta qué renglón se elija, las probabilidades de los resultados asociadas con las columnas son 
las mismas. Se desarrollará cierta notación para expresar A, y definir el estadístico de prueba. 

Sea / el número de renglones en la tabla, y J el de columnas. Sea p;, la probabilidad de 
que el resultado de un ensayo esté en la columna j en virtud de que está en el renglón i. En- 
tonces la hipótesis nula es 


H,y: Para cada columna j, py¡=*** = Py (6.7) 
Sea O; el valor observado en la celda 1. Sea O, la suma de los valores observados en el ren- 


glón í, sea O, la suma de los valores observados en la columna j, y sea O_ la suma de los va- 
lores observados en todas las celdas (véase la tabla 6.5). 


TABLA 6.5 Notación para los valores observados 


Columna 1 Columna 2 ... Columna J | Total 
Renglón 1 O; Op e. Os, 0 
Renglón 2 O» O» e. O», O,, 
Renglón I O Oz 07 O, 
Total O; O, e. O, O. 


Definir un estadístico de prueba requiere calcular la tabla. Bajo A, la probabilidad de 
que el resultado de un ensayo esté en la columna j es la misma para cada renglón i. La mejor 
estimación de esta probabilidad es la proporción de ensayos cuyo resultado está en la colum- 
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na j. Esta proporción es O¡/0.. Se necesita calcular el número esperado de ensayos cuyo re- 
sultado está en la celda 17. Se denota este valor esperado por E,,. Es igual a la proporción de 
ensayos cuyo resultado está en la columna ¡, multiplicado por el número O, de ensayos en el 
renglón ¡. Esto es, 


Ej = =— (6.8) 


El estadístico de prueba está basado en las diferencias entre los valores observados y es- 
perados: 


I J 2 
(04 = E) 
DS (6.9) 
ii ja i 


1 


Bajo H, este estadístico de prueba tiene una distribución Ji cuadrada con (1 — 11(Y — 1) gra- 
dos de libertad. El uso de la distribución Ji cuadrada es adecuado siempre que los valores es- 
perados sean todos iguales a o mayores que 5. 


Use los datos de la tabla 6.4 para probar la hipótesis nula de que las proporciones de alfileres 
que son muy angostos, están bien o muy gruesos son las mismas para todas las máquinas. 


Solución 
Se inicia mediante la ecuación (6.8) para calcular los valores esperados E. Se muestran los 
cálculos de £,, y E»z en detalle: 


(120)(66) 
= == =15.84 
500 
2 2 
23 = AICA AAA = 12.80 
500 


La tabla completa de los valores esperados es: 


Valores esperados para la tabla 6.4 


Muy Está Muy 
angosto bien grueso Total 
Máquina 1 15.84 96.48 7.68 120.00 
Máquina 2 26.40 160.80 12.80 200.00 
Máquina 3 13.20 80.40 6.40 100.00 
Máquina 4 10.56 64.32 5.12 80.00 
Total 66.00 402.00 32.00 500.00 
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Se observa que todos los valores esperados son mayores que 5. Por tanto, la prueba Ji 
cuadrada es adecuada. Se utiliza la ecuación (6.9) para calcular el valor del estadístico Ji cua- 
drada: 


>» (10— 15.84)? (10 — 5.12? 
¡TE E TN 
_ 341056, 23.814 
15.84 12 
= 15.5844 


Puesto que hay cuatro renglones y tres columnas, el número de grados de libertad es (4 — 1)(3 
— 1) = 6. Para obtener el P-valor se consulta la tabla Ji cuadrada (tabla A.6). Buscando aba- 
jo de seis grados de libertad se encuentra que el punto 2.5% superior es 14,449, y el punto 1% 
superior es 16.812. Por tanto, 0.01 < P < 0.025. Es razonable concluir que las máquinas di- 
fieren en las proporciones de alfileres que son muy angostos, están bien o muy gruesos. 


Se observa que el renglón observado y la columna total son idénticos al renglón espe- 
rado y la columna total. Éste es siempre el caso. 

El siguiente resultado de computadora (de MINITAB) presenta los resultados de esta 
prueba de hipótesis. 


Chi-Square Test: Thin, OK, Thick 


Expected counts are printed below observed counts 
Chi-Square contributions are printed below expected counts 


Thin OK Thick Total 

1 10 102 8 120 
15.84 96.48 7.68 
2.153 0.316 0.013 

2 34 161 5 200 
26.40 160.80 12.80 
2.188 0.000 4.753 

3 U2 79 9 100 
13.20 80.40 6.40 
0.109 0.024 1.056 

4 10 60 10 80 
10.56 64.32 5.12 
0.030 0.290 4.651 

Total 66 402 32 500 


Chi-Sq = 15.584 DF = 6, P-Value = 0.016 


En el resultado, cada celda (la intersección de renglón y columna) contiene tres números. El 
número superior es el valor observado, el de enmedio, el valor esperado, y el de abajo, la con- 
tribución (O; — ENE, hechos por el estadístico Ji cuadrada de cada celda. 
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La prueba Ji cuadrada para la independencia 


En el ejemplo 6.21 las columnas totales eran aleatorias, mientras que los renglones totales es- 
taban presumiblemente fijos con anticipación, como consecuencia de que representaban los 
números de elementos probados de varias máquinas. En algunos casos, tanto el renglón como 
la columna total son aleatorios. En cualquiera de los dos casos se puede probar la hipótesis 
nula de que las probabilidades de los resultados columna son las mismas para cada resultado 
renglón, y la prueba es exactamente la misma para ambos casos. Se presenta un ejemplo don- 
de tanto el renglón como la columna totales son aleatorios. 


Los alfileres cilíndricos de acero en el ejemplo 6.21 están sujetos a una especificación de lon- 
gitud, así como a una de diámetro. Con respecto a la longitud, un alfiler podría satisfacer la 
especificación, o puede ser demasiado corto o demasiado largo. Se hace un muestreo y se ca- 
tegorizan mil alfileres en relación con las especificaciones de longitud y diámetro. En la ta- 
bla siguiente se presentan los resultados. Probar la hipótesis nula de que las proporciones de 
alfileres que son muy angostos, están bien o muy gruesos respecto de la especificación del 
diámetro no dependen de la clasificación con respecto a la especificación de longitud. 


Valores observados para mil alfileres de acero 


Diámetro 
Muy Está Muy 
Longitud angosto bien grueso Total 
Demasiado corto 13 117 4 134 
Está bien 62 664 80 806 
Demasiado largo 3 68 8 81 
Total 80 849 92 1021 


Solución 
Se inicia mediante la ecuación (6.8) para calcular los valores esperados. Estos últimos los da 
la siguiente tabla. 


Valores observados para mil alfileres de acero 


Diámetro 
Muy Está Muy 
Longitud angosto bien grueso Total 
Demasiado corto 10.50 111.43 12.07 134.0 
Está bien 63.15 670.22 72.63 806.0 
Demasiado largo 6.35 67.36 7.30 81.0 
Total 80.0 849.0 92.0 1 021.0 
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Se observa que todos los valores esperados son mayores que o iguales a 5. (Uno de los valo- 
res observados no lo es; esto es irrelevante.) Por tanto, la prueba Ji cuadrada es adecuada. Se 
utiliza la ecuación (6.9) para calcular el valor del estadístico Ji cuadrada: 


» (1310.50)? (8 — 7.30)? 
X=" 10.50 7.30 
625 049 
10.50 7.30 


7.46 


Debido a que hay tres renglones y tres columnas, el número de grados de libertad es (3 — 1)(3 
— 1) = 4. Para obtener el P-valor se consulta la tabla Ji cuadrada (tabla A.6). Buscando de- 
bajo de cuatro grados de libertad, se encuentra que el punto 10% superior es 7.779. Se con- 
cluye que P > 0.10. No hay evidencia de que la longitud y el espesor estén relacionados. 


Ejercicios para la sección 6.10 


1. Se fabrican remaches para un propósito determinado. La es- 


¿Puede concluir que las proporciones de los rodillos en las 


pecificación de longitud es 1.20-1.30 cm. Se piensa que 
90% de los remaches fabricados satisfacen la especifica- 
ción, mientras que 5% son demasiado cortos, y 5% dema- 
siado largos. En una muestra aleatoria de mil remaches, 860 
satisfacían la especificación, 60 eran demasiado cortos, y 80 
demasiado, largos. ¿Puede concluir que los porcentajes ver- 
daderos son diferentes de 90, 5 y 5%? 


a) Establezca la hipótesis nula adecuada. 
b) Calcule los valores esperados bajo la hipótesis nula. 
c) Calcule el valor de la estadística Ji cuadrada. 


d) Determine el P-valor. ¿Cuál es su conclusión? 


. Las especificaciones para el diámetro de un rodillo son 
2.10-2.11 cm. Los rodillos muy gruesos pueden ser rectifi- 
cados, mientras que los muy angostos se deben desechar. 
Tres maquinistas pulen estos rodillos. Se coleccionaron mues- 
tras de los rodillos de cada maquinista y se midieron sus diá- 
metros. Los resultados fueron: 


Volver 
Maquinista Bien a pulir Desechar | Total 
A 328 58 14 400 
B 231 48 21 300 
C 409 73 18 500 
Total 968 179 53 1200 


tres categorías son diferentes entre los maquinistas? 

a) Establezca la hipótesis nula adecuada. 

b) Calcule los valores esperados bajo la hipótesis nula. 
c) Calcule el valor de la estadística Ji cuadrada. 


d) Determine el P-valor. ¿Cuál es su conclusión? 


. El artículo “An Investment Tax Credit for Investing in New 


Technology: A Survey of California Firms” (R. Pope, en 
The Engineering Economist, 1997:269-287) examina el im- 
pacto potencial de un impuesto sobre el capital invertido. Se 
categorizaron varias compañías por tamaño (> 100 emplea- 
dos contra <= 100 empleados) y la capacidad excesiva neta. 
Los números de las compañías en cada una de las categorías 
se presentan en la tabla siguiente: 


Capacidad 
excesiva neta Pequeña Grande 
< 0% 66 115 
0-10% 52 47 
11-20% 13 18 
21-30% 6 5 
> 30% 36 25 


¿Puede concluir que la distribución de la capacidad excesi- 
va neta es diferente entre compañías pequeñas y grandes? 
Calcule el estadístico de prueba importante y el P-valor. 
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4. El artículo citado en el ejercicio 3 clasificó a las compañías 
por tamaño y porcentaje de la fuerza laboral actualmente Valores observados 
empleada operando por completo. Los números de las com- 1 2 3 
pañías en cada una de las categorías se presentan en la si- 


guiente tabla. A 25 4 11 
B 3 3 4 
C 42 3 a] 


Porcentaje de fuerza laboral 
actualmente empleada 


operando por completo 7. Complete el enunciado: Para valores observados y espera- 


Pequeña Grande 


> 100% 6 8 
95-100% 29 45 
90-94% 12 28 
85-89% 20 21 
80-84% 17 22 
15-79% 15 21 
70-74% 33 29 
< 70% 39 34 


¿Puede concluir que la distribución de fuerza laboral actual- 
mente empleada es diferente entre compañías pequeñas y 
grandes? Calcule el estadístico de prueba relevante y el 
P-valor. 


. Para la tabla dada de los valores observados. 


a) Elabore la tabla correspondiente de valores esperados. 


b) Si es adecuado, realice la prueba Ji cuadrada para la hi- 
pótesis nula de que los resultados en los renglones y co- 
lumnas son independientes. Si no es adecuado, explique 
por qué. 


Valores observados 

1 2 3 

A 15 10 12 
B 3 11 11 
C 9 14 12 


6. Para la tabla dada de valores observados, 


a) Elabore la tabla correspondiente de valores esperados. 


b) Si es adecuado, realice la prueba Ji cuadrada para la hi- 
pótesis nula de que los resultados en los renglones y en 
las columnas son independientes. Si no lo es, explique 
por qué. 


dos, 


i) Los totales de los renglones en la tabla observada deben 
ser iguales que los totales de los renglones en la tabla es- 
perada, pero los totales de las columnas no necesaria- 
mente son iguales. 


11) Los totales de las columnas en la tabla observada deben 
ser iguales que los de las columnas en la tabla esperada, 
pero los totales de los renglones no necesariamente son 
iguales. 


iii) Tanto los totales de los renglones como los de las co- 
lumnas en la tabla observada deben ser iguales que los 
totales de los renglones y los de las columnas, respecti- 
vamente, en la tabla esperada. 


iv) Ni los totales de los renglones ni los de las columnas en 
la tabla observada necesitan ser iguales a los totales de 
los renglones o a los de la columna en la tabla esperada. 


. Debido a una falla en la impresora, ninguno de los valores 


observados en la siguiente tabla se imprimieron, pero algu- 
nos de los totales marginales sí lo hicieron. ¿Es posible 
construir la tabla correspondiente de valores esperados a 
partir de la información dada? Si es así, constrúyala. Si no, 
describa la información adicional que necesitaría. 


Valores observados 
1 2 3 Total 
A 25 
B 
C 40 
D 75 
Total 50 20 — 150 


. Se supone que un generador de números aleatorios produce 


los dígitos O al 9 con probabilidad igual. Se generó una 
muestra de 200 dígitos, con la siguiente frecuencia genera- 
da para cada uno de los dígitos. 


438 CAPÍTULO 6 Pruebas de hipótesis 


10. 


11. 


Dígito 0. 1234.56 7.8 9 
17 20 18 25 16 28 19 22 14 


Frecuencia 21 


¿Estos datos evidencian que el generador de números alea- 
torios no está funcionando adecuadamente? Explique. 


En una planta de ensamblaje de camiones ligeros la super- 
visión rutinaria de la calidad de las soldaduras produce la 
tabla siguiente: 


Número de soldaduras 


Alta Moderada Baja 

calidad calidad calidad 
Turno de día 470 191 42 
Turno de tarde 445 171 28 
Turno de noche 257 129 17 


¿Puede concluir que la calidad varía entre los turnos? 


El artículo “Analysis of Unwanted Fire Alarm: Case Study” 
(W. Chow, N. Fong y C. Ho, en Journal of Architectural En- 
gineering, 1999:62-65) presenta el número de falsas alar- 
mas en varios sitios. Los números de falsas alarmas cada 
mes, divididos entre aquellos cuyas causas se conocen y los 
que se desconocen, están dados en la tabla siguiente. ¿Pue- 
de concluir que la proporción de falsas alarmas cuya causa 
se conoce es diferente mes a mes? 


Mes 
1234567809 10 1112 


Se conocen 


20 13 21 26 23 18 14 10 20 20 18 14 


Se desconocen 12 2 16 12 22 3032 32 14 16 10 12 


12. 


En un cierto punto genético de un cromosoma cada indivi- 
duo tiene una de tres secuencias de ADN diferentes (alelos). 
Los tres alelos se denotan mediante A, B, C. En otro punto 
genético en el mismo cromosoma cada organismo tenía uno 
de los tres alelos, denotados por 1, 2, 3. Por tanto, cada in- 
dividuo tiene uno de los nueve posibles pares de alelos: Al, 
A2, A3, B1, B2, B3, Cl, C2, o C3. Estos pares de alelos se 


llaman haplotipos. Se dice que los puntos tienen un enlace 
de equilibrio si los dos alelos en un haplotipo particular son 
independientes. Se determinaron los haplotipos para 316 in- 
dividuos. El siguiente resultado MINITAB presenta los re- 
sultados de una prueba Ji cuadrada de independencia. 


Chi-Square Test: A, B, C 


Expected counts are printed below 
observed counts 

Chi-Square contributions are printed 
below expected counts 


A B E Total 

1 66 44 34 144 
61.06 47.39 35.54 
0.399 0.243 0.067 

2 36 38 20 94 
39.86 30.94 23.20 
0.374 1.613 0.442 

3 32 22 24 78 
33.08 25.67 19.25 
0.035 0.525 1.170 

Total 134 104 78 316 


Chi-Sq = 4.868, DF = 4, 
P-Value = 0.301 


a) ¿Cuántos individuos que tenían el haplotipo B3 se ob- 
servaron? 


b) ¿Cuál es el número esperado de individuos con el haplo- 
tipo A2? 

c) ¿Cuál de los nueve haplotipos se observó con menor fre- 
cuencia? 


d) ¿Cuál de los nueve haplotipos tiene el menor número es- 
perado? 


e) ¿Puede concluir que los puntos no tienen un enlace de 
equilibrio (es decir, no independientes)? Explique. 


f) ¿Puede concluir que los puntos tienen una conexión de 
equilibrio (es decir, independientes)? Explique. 
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6.11 La prueba F para la igualdad de varianzas 


Las pruebas que se han estudiado hasta ahora han implicado medias o proporciones. A veces 
se desea probar una hipótesis nula en la cual las dos poblaciones tienen varianzas iguales. En 
general, no hay ningún buen método para hacerlo. Sin embargo, para el caso especial donde 
ambas poblaciones son normales, hay un método disponible. 

Sea X¡,..., X,, una muestra aleatoria simple de una población N(u;, 0 yY,..., Y, 
una muestra aleatoria simple de una población Nu», ua) Suponga que las muestras se eligen 
de manera independiente. Los valores de las medias, 4, y 4», aquí son irrelevantes; se trata 
sólo con las varianzas 0; y 907. Observe que los tamaños muestrales, m y n, podrían ser dife- 
rentes. Sean sí y $5 las varianzas muestrales. Esto es, 


m 


1 en 1 n E 
2_ . 2 2_ ] 2 
=D) -X) == ==) 


i=1 i=1 


Cualesquiera de las tres hipótesis nulas puede probarse. Éstas son 


o 
OÍ R 
Ho: —+ < 1 ode manera equivalente, o < pd 
03 
2 
01 : 2 2 
Ho: >= 1 0 de manera equivalente, 07 > 0) 
aa Ñ 
2 
NS : 0 
Ho: >3=1 0 de manera equivalente, 0 =03 
02 


Los procedimientos para probar estas hipótesis son similares, pero no idénticos. Se describirá 

el procedimiento para probar la hipótesis nula H,: alo <= 1 contra H: 04/05 > 1, y después 

se analizará cómo se puede modificar el procedimiento para probar las otras dos hipótesis. 
El estadístico de prueba representa el cociente de las dos varianzas muestrales: 


F=3 (6.10) 
32, 

Cuando AH, es verdadera se supone que alas = 1 (el valor más cercano a H,), o de manera 
equivalente, que a = 03. Cuando H, es verdadera, SÍ y 5% son, en promedio, del mismo ta- 
maño, por lo que F es posiblemente cercano a 1. Cuando A, es falsa, aio por lo que si 
es posiblemente mayor que s, y F es quizá mayor a 1. Para utilizar F como un estadístico de 
prueba se debe conocer su distribución nula. Esta última se denomina distribución FF, ensegui- 
da se le describirá. 


La distribución F 


Los estadísticos que tienen una distribución F' son cocientes de cantidades, tal como el de las 
dos varianzas muestrales en la ecuación (6.10). Por tanto, la distribución F tiene dos valores 
para los grados de libertad: uno asociado con el numerador, y el otro con el denominador. Los 
grados de libertad se indican con subíndices bajo la letra F. Por ejemplo, el símbolo F; ¡¿ de- 
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nota la distribución F con 3 grados de libertad para el numerador y 16 grados de libertad pa- 
ra el denominador. Observe que los grados de libertad para el numerador siempre se listan pri- 
mero. 

Se proporciona una tabla para la distribución F (tabla A.7 en el apéndice A). La tabla 
proporciona valores para ciertos cuantiles, o puntos de porcentajes superiores, para gran nú- 
mero de elecciones de grados de libertad. Como ejemplo, la figura 6.21 presenta la función 
de densidad de probabilidad de la distribución de F; ¡¿. El 5% superior de la distribución es- 
tá sombreado. Para encontrar el punto 5% superior en la tabla, busque debajo de q = 0.050, 
y en grados de libertad v, = 3, v, = 16. El valor es 3.24. 


5% 


0 3.24 


FIGURA 6.21 Función de densidad de probabilidad de la distribución F; ¡¿. El punto 5% 
superior es 3.24. [Véase la tabla F (tabla A.7) del apéndice A.] 


El estadístico F para probar la igualdad de varianzas 


La distribución nula del estadístico de prueba F = s%/s3 es F, m=1, n—1- El número de grados de 
libertad para el numerador es uno menos que el tamaño muestral usado para calcular s%, y la 
cantidad de grados de libertad para el denominador es uno menos que el tamaño muestral uti- 
lizado para calcular s3. Se muestra la prueba F con un ejemplo. 


En una serie de experimentos para determinar la tasa de absorción de ciertos pesticidas en la 
piel se aplicaron cantidades medidas de dos pesticidas a algunos especímenes de piel. Des- 
pués de un tiempo se midieron las cantidades absorbidas (en ug). Para el pesticida A la va- 
rianza de las cantidades absorbidas en seis muestras fue de 2.3, mientras que para el B, la 
varianza de las cantidades absorbidas en diez especímenes fue de 0.6. Suponga que para ca- 
da pesticida las cantidades absorbidas constituyen una muestra aleatoria simple de una pobla- 
ción normal. ¿Se puede concluir que la varianza en la cantidad absorbida es mayor para el 
pesticida A que para el B? 


Solución 
Sea a la varianza poblacional para el pesticida A, y 903 la varianza poblacional para el B. La 
hipótesis nula es 


Las varianzas muestrales son sí = 2.3 y s5 = 0.6. El valor del estadístico de prueba es 


F=2%-383 
06. 7 
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La distribución nula del estadístico de prueba es F; y. Si Ay es verdadera, entonces s] será en 
promedio menor que s. En consecuencia, entre mayor sea el valor de F, más fuerte es la evi- 
dencia contra Hp. Al consultar la tabla F con cinco y nueve grados de libertad, se encuentra 
que el punto 5% superior es 3.48, mientras que el punto 1% superior es 6.06. Se concluye que 
0.01 < P < 0.05. En este sentido, hay fuertes evidencias contra la hipótesis nula. Véase la fi- 
gura 6.22, 


5% 


0 3.48 | 6.06 
3.83 


FIGURA 6.22 El valor observado del estadístico de prueba es 3.83. El punto 5% superior 
de la distribución F; y es 3.48; el punto 1% superior es 6.06. Por tanto, el P-valor está en- 
tre 0.01 y 0.05. 


Ahora se describen las modificaciones para el procedimiento mostrado en el ejemplo 
6.23, que son necesarias para probar las otras hipótesis nulas. Para probar 


se podría, en principio, utilizar el estadístico de prueba sis, con valores pequeños del esta- 
dístico proporcionando evidencia contra A,. Sin embargo, puesto que la tabla F' contiene so- 
lamente valores grandes (es decir, mayores que 1) para la estadística F, es más fácil utilizar 
el estadístico ss. Bajo A, la distribución de ss es Fr-im-1: 


Por último, se describe el método para probar la hipótesis de dos colas 


Para esta hipótesis, tanto los valores grandes como los pequeños del estadístico si1s3 propor- 
cionan evidencia contra Ap. El procedimiento es utilizar ya sea si1s3 O sas, cualquiera que 
sea mayor que 1. El P-valor para la prueba de dos colas es dos veces el P-valor para la prue- 
ba de una cola. En otras palabras, el P-valor de la prueba de dos colas constituye dos veces el 
área de la cola superior de la distribución de F. Se muestra con un ejemplo. 
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En el ejemplo 6.23, sí = 2.3 con tamaño de muestra de 6, y s5 = 0.6 con tamaño de muestra 
de 10. Pruebe la hipótesis nula 


o AO: 
Hy: 01 = 0) 


Solución 

La hipótesis nula a = 0) es equivalente a alo) = 1. Puesto que s > 5 se utiliza el esta- 
dístico de prueba 5/57. En el ejemplo 6.23 se encuentra que para la prueba de una cola, 0.01 
< P < 0.05. Por tanto, para la prueba de dos colas, 0.02 < P < 0.10. 


El siguiente resultado de computadora (de MINITAB) presenta la solución al ejemplo 
6.24, 


Test for Equal Variances 


F-Test (normal distribution) 
Test statistic = 3.83, p-value = 0.078 


La prueba F es sensible a las desviaciones de la normalidad 


La prueba F, de la misma manera que la prueba 1, requiere que las muestras provengan de po- 
blaciones normales. A diferencia de la prueba +, la prueba F' para comparar varianzas es bas- 
tante sensible a esta suposición. Si las formas de las poblaciones son muy diferentes de la 
curva normal, la prueba F puede dar resultados falsos. Por esta razón, la prueba F para com- 
parar varianzas se debe utilizar con precaución. 

En los capítulos 8 y 9 se utilizará la distribución F para realizar ciertas pruebas de hi- 
pótesis en el contexto de la regresión lineal y del análisis de varianza. En estos ajustes, la 
prueba F es menos sensible a las violaciones de la suposición de normalidad. 


La prueba F no puede probar que dos varianzas son iguales 


En la sección 6.7 se presentan dos versiones de la prueba t para la diferencia entre dos me- 
dias. Una versión es, en general, aplicable, mientras que la segunda versión, que usa la va- 
rianza combinada, es adecuada solamente cuando las varianzas poblacionales son iguales. 
Cuando se decide si es adecuado suponer que las varianzas poblacionales son iguales, es ten- 
tador realizar una prueba F y suponer que las varianzas son iguales si la hipótesis nula de la 
igualdad no es rechazada. Desgraciadamente, este procedimiento es poco fiable, por la razón 
básica de que falla al rechazar la hipótesis nula que no justifica la suposición de que aquélla 
es verdadera. En general, una suposición de que las varianzas poblacionales sean iguales no 
se puede justificar con una prueba de hipótesis. 


Ejercicios para la sección 6.11 


1. 


2. 


Determine el punto 5% superior de F; 2. 
Determine el punto 1% superior de Fs. 


Una prueba F con cinco grados de libertad en el numerador 
y siete en el denominador produjo un estadístico de prueba 
cuyo valor fue de 7.46. 


a) ¿Cuál es el P-valor si la prueba es de una cola? 
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a) ¿Puede concluir que la variabilidad del proceso es ma- 
yor el segundo día que el primero? 


b) ¿Puede concluir que la variabilidad del proceso es ma- 
yor el tercer día que el segundo? 


. Considerando el ejercicio 9 de la sección 5.6, ¿puede con- 


cluir que la varianza de las fuerzas de ruptura es diferente 
entre los dos compuestos? 


b) ¿Cuál es el P-valor si la prueba es de dos colas? 


4. El contenido de azúcar, en mg/ml, de un caldo utilizado pa- 
ra fabricar un producto farmacéutico fue medido varias ve- 
ces en cada uno de tres días sucesivos. 


6. Respecto al ejercicio 11 de la sección 5.6, ¿puede concluir 
que el tiempo en que se paraliza la computadora es más va- 
riable en el séptimo mes que en el primero después de la 
instalación? 


Díal: 50 48 51 51 48 51 48 
48 350 52 49 49 5.0 

Día2: 58 47 47 49 51 49. 5.4 
33 33 48, 5.7. 31 37 

Día3: 63 47 51 59 51 59 47 
60 53 49 5.7 5.3 5.6 
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Puntos críticos y regiones de rechazo 


Una prueba de hipótesis mide la factibilidad de la hipótesis nula produciendo un P-valor. En- 
tre menor sea éste menos factible será la nula. Se ha indicado que no hay línea divisoria cien- 
tíficamente legítima entre la factibilidad e infactibilidad, por lo que es imposible especificar 
un P-valor “correcto” debajo del cual se deba rechazar H¿. Cuando sea posible, es mejor só- 
lo notificar el P-valor y no tomar una decisión firme de si se rechaza o no. Sin embargo, a ve- 
ces se tiene que tomar una decisión. Por ejemplo, si se ha hecho un muestreo de los elementos 
de una línea de montaje para probar si la media del diámetro está dentro de la tolerancia, se 
debe tomar la decisión de si se recalibra el proceso. Si se extrae una muestra de piezas de un 
embarque y se examina en busca de defectos, se debe decidir si aceptar o no la remesa. Si se 
tomará una decisión con base en una prueba de hipótesis, no hay ninguna elección pero se eli- 
ge un punto límite para el P-valor. Cuando se hace esto último la prueba se denomina de ni- 
vel fijo. 

La prueba de nivel fijo es muy parecida a la de hipótesis que se ha analizado hasta aho- 
ra, excepto que se ha establecido una regla firme antes de tiempo para rechazar la hipótesis 
nula. Se elige un valor (*, donde O < qa < 1. Entonces se calcula el P-valor. Si P <= q, la hi- 
pótesis nula se rechaza y la hipótesis alternativa se toma como verdadera. Si P > Q, entonces 
la hipótesis nula se considera factible. El valor de (Y se llama nivel de significancia, o de ma- 
nera más sencilla, nivel, de la prueba. Recuerde, de la sección 6.2, que si en una prueba se 
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obtiene un P-valor menor que o igual a Q,, se dice que la hipótesis nula se rechaza a un nivel 
de a (o 1004%), o que el resultado es estadísticamente significativo a un nivel de q (o 
1000 %). Como se ha mencionado, una elección común para Y es 0.05. 


Para realizar una prueba de nivel fijo: 


Mi Se elige un número (%, donde 0 < a < 1. Éste se llama nivel de significancia, o ni- 
vel, de la prueba. 


E Se calcula el P-valor en la manera acostumbrada. 


m SiP < q, rechaza Hy. Si P > Q, no se rechaza Ho. 


En relación con el ejemplo 6.1 de la sección 6.1, la media del desgaste en una muestra de 45 
bolas de acero fue X = 673.2 um, y la desviación estándar s = 14.9 um. Sea uu la media po- 
blacional de desgaste. Una prueba de H,: 4 = 675 contra H¡: y < 675 produjo un P-valor de 
0.209. ¿Se puede rechazar H, a un nivel de 25%? ¿Se puede rechazar H, a un nivel de 5%? 


Solución 

El P-valor de 0.209 es menor que 0.25, por lo que si se hubiera elegido un nivel de signifi- 
cancia de Y = 0.25, se rechazaría H¿. Por tanto, se rechaza H, a un nivel de 25%. Dado que 
0.209 > 0.05, no se rechaza H, a un nivel de 5%. 


En una prueba de nivel fijo, un punto crítico constituye un valor del estadístico de prue- 
ba que produce un P-valor exactamente igual a Y. Un punto crítico representa una línea di- 
visoria para el estadístico de prueba igual que el nivel de significancia representa una línea 
divisoria para el P-valor. Si el estadístico de prueba está en un lado del punto crítico, el P-va- 
lor será menor que « y se rechazará H,. Si el estadístico de prueba está al otro lado del pun- 
to crítico, el P-valor será mayor que A, y H, no será rechazada. La región en el lado del punto 
crítico que conduce al rechazo se llama región de rechazo. El punto crítico también está en la 
región de rechazo. 


Se está evaluando una nueva mezcla de concreto. El plan es hacer un muestreo de 100 blo- 
ques de concreto hechos con la nueva mezcla; calcule la media muestral de la fuerza compre- 
siva X, después pruebe Hy: 1 < 1 350 contra H;: n > 1 350, donde las unidades son MPa. Se 
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ha supuesto en las pruebas previas que en esta clase la desviación estándar poblacional « se- 
rá cercana a 70 MPa. Determine el punto crítico y la región de rechazo si la prueba se hace a 
un nivel de significancia de 5%. 


Solución 

Se rechazará H, si el P-valor es menor o igual a 0.05. El P-valor para esta prueba será el área 
a la derecha del valor de X. Por tanto, el P-valor será menor que 0.05, y Hy será rechazada, si 
el valor de X está en el 5% superior de la distribución nula (véase la figura 6.23). Por tanto, 
la región de rechazo consta de 5% superior de la distribución nula. El punto crítico es el lími- 
te de 5% superior. La distribución nula es normal, y de la tabla z se encuentra que el puntaje 
z del punto que corresponde a 5% superior de la curva normal es zy5= 1.645. Por tanto, se 
puede expresar el punto crítico como z = 1.645, y la región de rechazo como z = 1.645. Con 
frecuencia es más conveniente expresar el punto crítico y la región de rechazo en función de 
X, al convertir el puntaje z en las unidades originales. La distribución nula tiene una media 
 = 1350 y desviación estándar oz = 0/yn = 70/4100 = 7. Por tanto, el punto crítico 
se puede expresar como X = 1 350 + (1.6457) = 1 361.5. La región de rechazo consta de 
los valores de X mayores que o iguales a 1 361.5. 


Región de rechazo 


5% 


| 
1350 1361.5 
z=1.645 


FIGURA 6.23 La región de rechazo para esta prueba de una cola consta del 5% superior 
de la distribución nula. El punto crítico es 1 361.5, en la frontera de la región de rechazo. 


En una prueba de hipótesis para determinar si una balanza está calibrada, la hipótesis nula es 
Ho: 4 = 1 000 y la distribución nula de X es N(1 000, 0.26”). (Esta situación se presentó en 
el ejemplo 6.2 de la sección 6.1.) Determine la región de rechazo si la prueba se hará en un 
nivel de significancia de 5%. 


Solución 

Dado que ésta es una prueba de dos colas, la región de rechazo está contenida en ambas co- 
las de la distribución nula. Específicamente, H, será rechazada si X está en el 2.5% superior 
o inferior de la distribución nula (véase la figura 6.24). Los puntajes z que corresponden al 
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2.5% superior e inferior de la distribución son z = + 1.96. Por tanto, la región de rechazo 
consta de todos valores de X mayores que o iguales a 1 000 + (1.96)(0.26) = 1 000.51, jun- 
to con los valores menores que o iguales a 1 000 — (1.96)(0.26) = 999.49. Observe que hay 
dos puntos críticos, 999,49 y 1 000.51. 


Región de 
rechazo 


Región de 
rechazo 


999.49 1000 1 000.51 
z==1,/96 z=1.96 


FIGURA 6.24 La región de rechazo para la prueba de dos colas consta tanto de 2.5% in- 
ferior como superior de la distribución nula. Hay dos puntos críticos, 999.49 y 1 000.51. 


Errores de tipos | y Il 


Debido a que una prueba de nivel fijo da como resultado una decisión firme, hay una posibi- 
lidad de que la decisión podría estar equivocada. Hay dos formas en las cuales la decisión 
puede estar equivocada. Se puede rechazar H, cuando en realidad es verdadera. Esto último 
se conoce como error de tipo I. O se puede aceptar A¿ cuando es falsa. Ello se conoce como 
error de tipo IT. 

Cuando se diseñan experimentos cuyos datos serán analizados con una prueba de nivel 
fijo es importante tratar de hacer las probabilidades de los errores de tipos I y II razonable- 
mente pequeñas. No tiene caso realizar un experimento que tiene grandes probabilidades de 
dar como resultado una decisión incorrecta. Es fácil controlar la probabilidad de un error de ti- 
po L, como lo muestra el resultado siguiente. 


Si O representa el nivel de significancia que se ha elegido para la prueba, entonces la 
probabilidad de un error de tipo I nunca es mayor que (. 


Este hecho se muestra con el siguiente ejemplo. Sea X;, ..., X, una muestra aleatoria 
grande de una población con media yu y varianza a”. Entonces X está normalmente distribui- 
da con media y y varianza an. Suponga que se quiere probar H,: 4 S0 contra H,: 4 >0 
a un nivel fijo « = 0.05. Esto es, se rechazará H, si P < 0.05. La distribución nula, que se 
muestra en la figura 6.25, es normal con media O y varianza 0% = 0. Suponga que la hi- 
pótesis nula es verdadera. Se calculará la probabilidad de un error de tipo 1 y se mostrará que 
no es mayor de 0.05. 
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0.05 
| 
0 1.6450g 


FIGURA 6.25 Distribución nula con región de rechazo para Hy: p < 0. 


Un error de tipo I ocurrirá si se rechaza H,, ello sucederá si P < 0.05, además si X = 
1.6450z. Por tanto, la región de rechazo es la región X = 1.6450. Ahora, puesto que H, es 
verdadera, yu < O. Primero se considerará el caso donde yu = O. Entonces la distribución de X 
la da la figura 6.25. En este caso, P(X = 1.6450 %) = 0.05, por lo que la probabilidad de re- 
chazar H, y cometer un error de tipo l es igual a 0.05. Después se considera el caso donde 
y < 0. Entonces la distribución de X se obtiene al correr la curva en la figura 6.25 a la iz- 
quierda, por lo que P(X = 1.6450) < 0.05, y la probabilidad de un error de tipo 1 es menor 
de 0.05. Se podría repetir esta ilustración con cualquier número « en lugar de 0.05. Se con- 
cluye que si A, es verdadera, la probabilidad de un error de tipo I nunca es mayor que (.. Ade- 
más, se observa que si ju está en el límite de A, (u = 0 en este caso), entonces la probabilidad 
de un error de tipo l es igual a Q. 

Por tanto, se puede hacer la probabilidad de un error de tipo I tan pequeña como se quie- 
ra, porque nunca es mayor que el nivel de significancia Q* que se eligió. Desgraciadamente, 
como se verá en la sección 6.13, entre menor se haga la probabilidad de un error de tipo l, 
mayor será la probabilidad de propiciar un error de tipo II. La estrategia usual es elegir un va- 
lor para o con el propósito de que la probabilidad del error de tipo I sea razonablemente pe- 
queña. Como se ha mencionado, una elección convencional para (. es 0.05. Entonces se 
calcula la probabilidad de un error de tipo II y se espera que no sea demasiado grande. Si lo 
fuera, se podría reducir solamente al rediseñar el experimento; por ejemplo, si se incrementa el 
tamaño muestral. Calcular y controlar el tamaño del error de tipo II es un poco más difícil que 
hacer lo mismo con el tamaño del error de tipo I. Esto último se analizará en la sección 6.13. 


Cuando se realiza una prueba de nivel fijo a un nivel de significancia o existen dos ti- 
pos de errores que se pueden cometer. Estos son 


m Error de tipo I: rechazar H cuando es verdadera. 


EM Error de tipo Il: aceptar A, cuando es falsa. 


La probabilidad de un error de tipo I nunca es mayor que (. 
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Ejercicios para la sección 6.12 


1. Se realiza una prueba de hipótesis y el P-valor es 0.03. Ver- e) Alguien sugiere rechazar H, si X = 89.4 pies o si X = 


dadero o falso: 
a) H, se rechaza a un nivel de 5%. 
b) H, se rechaza a un nivel de 2%. 


c) Hg no se rechaza a un nivel de 10%. 


b) Determine la región de rechazo si la prueba se realiza a 
un nivel de 5%. 

c) Alguien sugiere rechazar H, si X = 89.4 pies. ¿Ésta es 
una región de rechazo adecuada, o algo está equivoca- 
do? Si fuera lo primero, determine el nivel de la prueba. 
De otro modo, explique la falla. 


d) Alguien sugiere rechazar H, si X = 89.4 pies. ¿Ésta es 
una región de rechazo adecuada, o algo falla? Si fuera el 
primer caso, determine el nivel de la prueba. De otro 


modo, explique el error. 


== 


90.6 pies. ¿Ésta es una región de rechazo adecuada, o al- 
go está equivocado? Si fuera lo primero, determine el 
nivel de la prueba. De otro modo explique la falla. 


4. Se hace una prueba de las hipótesis Ay: 1 <= 10 contra H;: 
dez ; . p > 10. Para cada una de las situaciones siguientes, deter- 
. Se diseña un programa de tratamiento de aguas residuales Ela E y E 
Ñ a mine si la decisión fue correcta u ocurrieron errores de tipo 
para producir agua tratada con pH de 7. Sea y la media del Lol 
pH del agua tratada mediante dicho proceso. Se medirá el pH l 
de 60 muestras de agua y se realizará una prueba de hipóte- a) p = 8, Hp es rechazada. 
sis Hp: 4 = 7 contra H,: q + 7. Suponga que se sabe, con 
base en experimentos previos, que la desviación estándar b) u = 10, Hp no es rechazada. 
del pH de las muestras de agua es aproximadamente 0.5. c) 1 = 14, Ay no es rechazada. 
' . y 0 d) up = 12, H, es rechazada. 
a) Si la prueba se hace a un nivel de 5%, ¿cuál es la región 
de rechazo? 
; ; 5. Un distribuidor afirma que no más de 10% de las partes que 
b) Si la media muestral del pH es 6.87, ¿se rechaza H, a un U E Ñ q el P q 
, proporciona están defectuosas, sea p la proporción real de 
nivel de 10%? ] ob 
. ] piezas con defecto. Se hace una prueba de hipótesis Aj: p < 
c) Si la media muestral del pH es 6.87, ¿se rechaza A, a un 0.10 contra H,: p > 0.10. Para cada una de las siguientes si- 
nivel de 1%? tuaciones, determine si la decisión fue correcta u ocurrieron 
d) Si el valor 7.2 representa un punto crítico, ¿cuál es el ni- errores de tipo Lo II. 
vel de la prueba? 
a) La afirmación es verdadera, y H, es rechazada. 
. Se está evaluando un nuevo sistema de frenado en cierto ti- b) La afirmación es falsa, y H, es rechazada. 
po de automóvil; aquél se instalará si se puede demostrar c) La afirmación es verdadera, y Hp no es rechazada. 
que la distancia en que se detiene bajo ciertas condiciones d) Laa nie fal $ ei 
, a ; a afirmación es falsa, no es rechazada. 
controladas a velocidad de 30 mi/h es menor a 90 pies. Se dea 
sabe que bajo estas condiciones la desviación estándar de la 
distancia en que se detiene es de casi 5 pies. Se hará una 6. Se realiza una prueba de hipótesis y se decide rechazar la 
muestra de 150 frenadas a 30 mi/h. Sea y la media de la dis- hipótesis nula si P < 0.10. Si Ay es, en efecto, verdadera, 
tancia en que el automóvil se detiene con el nuevo sistema ¿cuál es la probabilidad máxima de que sea rechazada? 
de frenado. 
a) Establezca las hipótesis nula y alternativa adecuadas. 7. Se está considerando un nuevo proceso para la licuefacción 


de carbón. El anterior proceso producía una media de 15 kg de 
combustible destilado por kilogramo de hidrógeno consu- 
mido en el proceso. Sea ¡yu la media del nuevo proceso. Se 
realizará una prueba de Hp: 1 <= 15 contra A: q > 15. El 
nuevo proceso se realizará si A, es rechazada. Implantar en 
la producción el nuevo proceso es muy costoso. Por tanto, 
sería un error muy oneroso instaurar en la producción el 
nuevo proceso si efectivamente no es mejor que el anterior. 
¿Qué procedimiento proporciona una probabilidad menor 
para este error, probar a un nivel de 5% o bien un nivel de 
1%? 
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6.13 Potencia 


Una prueba de hipótesis da como resultado un error de tipo II si Ag no es rechazada cuando 
es falsa. La potencia de una prueba es la probabilidad de rechazar H¿ cuando ésta es falsa. 
Por tanto, 


Potencia = 1 — P(error tipo IM) 


Para ser de utilidad, una prueba debe tener probabilidades razonablemente pequeñas 
tanto como errores de tipos 1 y II. El error de tipo I se conserva pequeño al elegir un valor pe- 
queño de (como nivel de significancia. Entonces se calcula la potencia de la prueba. Si aqué- 
lla es grande, entonces la probabilidad de un error de tipo II es también pequeña, y la prueba 
es útil. Observe que los cálculos de potencia generalmente se hacen antes de recopilar los da- 
tos. El propósito de un cálculo de potencia es determinar, cuando se realiza una prueba de hi- 
pótesis, si posiblemente rechaza o no A, en el evento en que H, es falsa. 

Como ejemplo de un cálculo de potencia, suponga que se ha desarrollado un nuevo pro- 
ceso químico que puede aumentar la producción del proceso actual. Se sabe que éste tiene una 
media de producción de 80 y desviación estándar de 5, donde las unidades representan los 
porcentajes de un máximo teórico. Si la media de la producción del nuevo proceso se mues- 
tra mayor a 80, el nuevo proceso será realizado. Sea uu la media de la producción del nuevo 
proceso. Se propone operar el nuevo proceso 50 veces y después probar la hipótesis 


H.:p3=80 contra H¡:p>80 


a un nivel de significancia de 5%. Si H, es rechazada, se concluirá que 1 > 80, y el nuevo 
proceso se realizará. Se supone que si el nuevo proceso tuviera una media de la producción 
de 81, entonces sería muy benéfico instaurarlo en la producción. Si éste es, en efecto, el caso 
que u = 81, que es la potencia de la prueba, ¿cuál es la probabilidad de que HA, se rechazará? 

Antes de presentar la solución, se observa que para calcular la potencia es necesario es- 
pecificar un valor particular de uu, en este caso u = 81, para la hipótesis alternativa. La razón 
para esto último consiste en que la potencia es diferente para valores diferentes de yu. Se ve- 
rá que si y está cerca de H,, la potencia será pequeña, mientras que si yu está lejos de Hy la 
potencia será grande. 

Calcular la potencia implica dos pasos: 


1. Se calcula la región de rechazo. 
2. Se calcula la probabilidad de que el estadístico de prueba esté en la región de rechazo, si 
la hipótesis alternativa es verdadera. Esta es la potencia. 


Se iniciará por encontrar la potencia de la prueba al calcular la región de rechazo me- 
diante el método que se muestra en el ejemplo 6.26 de la sección 6.12. Primero se debe en- 
contrar la distribución nula. Se sabe que el estadístico X tiene una distribución normal con 
media q, y desviación estándar oz = 0/n, donde n = 50 es el tamaño muestral. Bajo H,, se 
toma 4 = 80. Ahora se debe encontrar una aproximación para a. En la práctica éste puede 
ser un problema difícil, porque la muestra aún no se ha extraído, por lo que no hay una des- 
viación estándar muestral s. Hay algunas maneras en las que podría ser posible aproximar d. 


450 


CAPÍTULO 6 Pruebas de hipótesis 


A veces se ha extraído una muestra preliminar pequeña; por ejemplo, en un estudio de viabi- 
lidad, y la desviación estándar de esta muestra podría ser una aproximación satisfactoria pa- 
ra dr. En otros casos, podría existir una muestra de una población similar, cuya desviación 
estándar podría utilizarse. En este ejemplo hay una larga historia de un proceso actualmente 
utilizado, cuya desviación estándar es 5. Se dice que es razonable suponer que la desviación 
estándar del nuevo proceso sea similar a la del proceso actual. Por tanto, se desea suponer que 
la desviación estándar poblacional para el nuevo proceso es a = 5 y que dz = 5/50 = 0.707. 

La figura 6.26 presenta la distribución nula de X. Dado que H, especifica que q <= 80, 
valores grandes de X no concuerdan con H,, por lo que el P-valor será el área a la derecha del 
valor observado de X. El P-valor será menor o igual a 0.05 si X está en el 5% superior de la 
distribución nula. Este 5% superior está en la región de rechazo. El punto crítico tiene un pun- 
taje z de 1.645, por lo que su valor es 80 + (1.645)(0.707) = 81.16. Se rechazará H, si X = 
81.16. Ésta es la región de rechazo. 


Región de 
rechazo 


80 81.16 
z= 1.645 


FIGURA 6.26 La prueba de hipótesis se realizará en un nivel de significancia de 5%. La 
región de rechazo para esta prueba es la región donde el P-valor será menor de 0.05. 


Ahora está listo para calcular la potencia, que es la probabilidad de que X esté en la re- 
gión de rechazo si la hipótesis alternativa yu = 81 es verdadera. Bajo ésta, la distribución de 
X es normal con media 81 y desviación estándar 0.707. La figura 6.27 presenta la distribución 
alternativa y la distribución nula en la misma gráfica. Se observa que la distribución alterna- 
tiva se obtiene al correr la distribución nula con el propósito de que la media sea la media al- 


Distribución Distribución 
nula 5 alternativa 
s 
AS 
sx 


YX, Potencia = 0.4090 


-.r ==, 


1 
80 81 81.16 
zp = 1.645 
z¡ = 0.23 


FIGURA 6.27 La región de rechazo, que consta de 5% superior de la distribución nula, 
está sombreada. El puntaje z del punto crítico es zy = 1.645 bajo la distribución nula y z, 
= 0.23 bajo la alternativa. La potencia constituye el área de la región de rechazo bajo la 
distribución alternativa, que es 0.4090. 
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ternativa de 81, en vez de la media nula de 80. Debido a que la distribución alternativa es co- 
rrida hacia delante, la probabilidad de que el estadístico de prueba esté en la región de recha- 
zo es mayor a que esté bajo H¿. De manera específica, el puntaje z bajo H, para el punto 
crítico 81.16 es z = (81.16 — 81)/0.707 = 0.23. El área a la derecha de z = 0.23 es 0.4090. 
Ésta es la potencia de la prueba. 

Una potencia de 0.4090 es muy baja. Esto último significa que si la media de la produc- 
ción del nuevo proceso es, en realidad, igual a 81, hay solamente una probabilidad de 41% de 
que el experimento propuesto detecte la mejoría sobre el proceso antiguo y permita que el 
nuevo proceso se realice. Sería poco sabio invertir tiempo y dinero en aplicar este experimen- 
to, ya que tiene gran un riesgo de fallar. 

Es natural preguntarse qué tan grande debe ser la potencia para que sea útil realizar una 
prueba. Como con los P-valores, no hay una línea divisoria científicamente válida entre po- 
tencia suficiente e insuficiente. En general, las pruebas con potencias mayores a 0.80 o qui- 
zás 0.90 se consideran aceptables, pero no hay reglas prácticas bien establecidas. 

Se ha mencionado que la potencia depende del valor elegido de yu para representar la 
hipótesis alternativa y que es mayor cuando el valor está lejos de la media de la nula. El ejem- 
plo 6.28 muestra esto último. 


Determine la potencia de la prueba a un nivel de 5% de H,: 1 < 80 contra H,: 4 > 80 para 
la media de la producción del nuevo proceso bajo la alternativa ju = 82, suponiendo que n = 
50 y a =5. 


Solución 

Ya se ha terminado el primer paso de la solución, que es calcular la región de rechazo. Se re- 
chaza H, si X = 81.16. La figura 6.28 presenta las distribuciones alternativa y nula en la mis- 
ma gráfica. El puntaje z para el punto crítico de 81.16 bajo la hipótesis alternativa es z = 
(81.16 — 82)/ 0.707 = —1.19. El área a la derecha de z = — 1.19 es 0.8830. Ésta es la potencia. 


Distribución Distribución 
nula Ts alternativa 
he 


80 81.16 82 
Zq = 1.645 
z¡=-1.19 


FIGURA 6.28 La región de rechazo, que consta del 5% superior de la distribución nula, 
está sombreada. El puntaje z del punto crítico es z, = 1.645 bajo la distribución nula y z, 
= —1.19 bajo la hipótesis alternativa. La potencia es el área de la región de rechazo bajo 
la distribución alternativa, que es 0.8830. 
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Debido a que la distribución alternativa se obtiene al correr a la distribución nula, la po- 
tencia depende de qué tipo de valor alterno se elija para y, y tiene un rango desde apenas ser 
mayor del nivel de significancia O: hasta arriba de 1. Si la media alternativa se elige muy cerca 
de la media de la nula, la curva alternativa será casi idéntica a la nula, y la potencia será muy 
cercana a Q%. Si la media alternativa está lejos de la nula, casi toda el área bajo la curva alter- 
nativa estará en la región de rechazo, y la potencia será cercana a 1. 

Cuando la potencia no es lo suficientemente grande, se puede aumentar al incrementar 
el tamaño muestral. Cuando se planea un experimento se puede determinar el tamaño mues- 
tral necesario para lograr la potencia deseada. El ejemplo 6.29 ilustra esto último. 


Con el propósito de evaluar la hipótesis Ay: 4 < 80 contra H,: 4 > 80, considerando la me- 
dia de la producción del nuevo proceso, ¿cuántas veces se debe operar el nuevo proceso con 
el fin de que una prueba con un nivel de significancia de 5% tenga una potencia de 0.90 con- 
tra la alternativa yu = 81, si se supone que a = 5? 


Solución 

Sea n el tamaño de muestra necesario. Primero se utiliza la distribución nula para expresar el 
punto crítico de la prueba en función de n. La distribución nula de X es normal con media 80 
y desviación estándar 5//n. Por tanto, el punto crítico es 80 + 1.645(5/,/n). Ahora se utiliza la 
distribución alternativa con el fin de obtener una expresión diferente para el punto crítico en 
función de n. Consulte la figura 6.29. La potencia de la prueba es el área de la región de recha- 
zO bajo la curva alternativa. Esta área debe ser 0.90. Por tanto, el puntaje z para el punto críti- 
co, bajo la hipótesis alternativa, es  = — 1.28. El punto crítico es, por tanto, 81 — 1.28 (5///n). 
Ahora se tienen dos expresiones diferentes para el punto crítico. Debido a que sólo hay un pun- 
to crítico, estas dos expresiones son iguales. En consecuencia, se hacen iguales y se despeja n. 


80 + 1.645 (+) = 81 — 1.28 (5) 


Distribución Distribución 
nula s. alternativa 
3 


FIGURA 6.29 Para lograr una potencia de 0.90, con nivel de significancia de 0.05, el pun- 
taje z para el punto crítico debe ser zy = 1.645 bajo la distribución nula y de z, = —1.28. 
Bajo la distribución alternativa. 
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Despejando para n produce n = 214. El punto crítico se puede calcular cuando se sustituye 
este valor para n en cualquier lado de la ecuación anterior. El punto crítico es 80.56. 


Utilización de una computadora para calcular la potencia 


Se ha presentado un método con el cual calcular la potencia y el tamaño muestral necesario 
con el fin de obtener una potencia específica para una prueba de una cola con muestras gran- 
des de una media poblacional. Es razonablemente directo extender este método para calcular 
la potencia y los tamaños muestrales necesarios para pruebas de dos colas y de proporciones. 
Es más difícil calcular la potencia para una prueba £, prueba F, o prueba Ji cuadrada. Sin em- 
bargo, los paquetes computacionales pueden calcular la potencia y los tamaños muestrales ne- 
cesarios para todas estas pruebas. Se presentan algunos ejemplos. 


Un individuo realizará una encuesta a una muestra aleatoria de votantes en una comunidad 
para calcular la proporción de los que aprueban una medida respecto de bonos escolares. Sea 
p la proporción poblacional que aprueba la medida. El encuestador probará Hp: p = 0.50 con- 
tra A: p F+ 0.50 a un nivel de 5%. Si se hace un muestreo de 200 votantes, ¿cuál es la poten- 
cia de la prueba si el valor verdadero de p es 0.55? 


Solución 
El siguiente resultado de computadora (de MINITAB) presenta la solución: 


Power and Sample Size 


Test for One Proportion 


Testing proportion = 0.5 (versus not = 0.5) 


Alpha = 0.05 
Alternative Sample 
Proportion Size Power 
0.55 200 0.292022 


Los primeros dos renglones establecen que éste es un cálculo de potencia para una prueba de 
una sola proporción poblacional p. Los siguientes dos renglones establecen las hipótesis nu- 
la y alternativa, así como el nivel de significancia de la prueba. Observe que se ha especifica- 
do una prueba de dos colas con un nivel de significancia Y = 0.05. El renglón siguiente 
representa la proporción alternativa, el valor de p (0.55) que se está suponiendo como verda- 
dero cuando se calcula la potencia. El tamaño muestral se ha especificado en 200, y la poten- 
cia se calcula en 0.292, 


En relación con el ejemplo 6.30, ¿cuántos votantes se deben muestrear con el propósito de 
que la potencia sea de 0.8 cuando el valor verdadero es p = 0.557 
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Solución 
El siguiente resultado de computadora (de MINITAB) presenta la solución: 


Power and Sample Size 


Test for One Proportion 


Testing proportion = 0.5 (versus not = 0.5) 


Alpha = 0.05 

Alternative Sample Target 

Proportion Size Power Actual Power 
0.55 783 0.8 0.800239 


El tamaño muestral necesario es de 783. Observe que la potencia verdadera es ligeramente 
mayor a 0.80. Debido a que el tamaño muestral es discreto, no es posible encontrar un tama- 
ño muestral que proporcione exactamente la potencia pedida (la potencia objetivo). Como 
consecuencia de lo anterior, MINITAB calcula el tamaño muestral menor para la potencia ma- 
yor que la que se pidió originalmente. 


Embarques de granos de café se examinan en busca de humedad. Un alto índice de humedad 
indica posible contaminación de agua, lo que origina el rechazo del embarque. Sea y la me- 
dia del contenido de humedad (en porcentaje por peso) en un embarque. Se hicieron cinco 
mediciones de humedad a los granos elegidos aleatoriamente del embarque. Se hará una prue- 
ba de hipótesis H/: 1 <= 10 contra A;: 4 > 10 a un nivel de 5%, utilizando la prueba £ de Stu- 
dent. ¿Cuál es la potencia de la prueba si el contenido de humedad verdadero es de 12%, y la 
desviación estándar, ar = 1.5%? 


Solución 
El siguiente resultado de computadora (de MINITAB) presenta la solución: 


Power and Sample Size 


1-Sample t Test 


Testing mean = null (versus > null) 
Calculating power for mean = null + difference 
Alpha = 0.05 Assumed standard deviation = 1.5 


Sample 
Difference Size Power 
2 5 0.786485 


La potencia depende solamente de la diferencia entre la media verdadera y la media de la nu- 
la que es 12 — 10 = 2, y no sobre las medias mismas. La potencia es 0.786. Observe que el 
resultado especifica que ésta es la potencia para una prueba de una cola. 


que la potencia sea al menos 0.9. 


Solución 


6.13 Potencia 455 


Con referencia al ejemplo 6.32, encuentre el tamaño muestral necesario con el propósito de 


El siguiente resultado de computadora (de MINITAB) presenta la solución: 


Power and Sample Size 


1-Sample t Test 


Testing mean = null (versus > null) 


Calculating power for mean 


null + difference 


Alpha = 0.05 Assumed standard deviation = 1.5 


Sample 
Difference Size 
2 7 


Target 
Power 
0.9 0.926750 


Actual Power 


El valor menor de la muestra para la cual la potencia es 0.9 o más es 7. La potencia verdade- 


ra es 0.927. 


Resumiendo, los cálculos de potencia son importantes para asegurar que los experimentos 
tengan el potencial de proporcionar conclusiones útiles. Muchos organismos que proporcio- 
nan financiamiento para investigación científica requieren que con cada propuesta se presen- 
ten cálculos de potencia de las pruebas de hipótesis que realizarán. 


Ejercicios para la sección 6.13 


1. Una prueba tiene potencia de 0.90 cuando yu = 15. Verda- 
dero o falso: 


a) La probabilidad de rechazar H, cuando u = 15 es 0.90. 


b) La probabilidad de tomar una decisión correcta cuando 


p = 15 es 0.90. 

c) La probabilidad de tomar una decisión correcta cuando 
pm = 15 es 0.10. 

d) La probabilidad de que A, es verdadera cuando yu = 15 
es 0.10. 


2. Una prueba tiene una potencia de 0.80 cuando uu = 3.5. Ver- 
dadero o falso: 


a) La probabilidad de rechazar A, cuando uu = 3.5 es 0.80. 


b) La probabilidad de cometer un error de tipo I cuando u 
= 3.5 es 0.80. 


c) La probabilidad de cometer un error de tipo I cuando uu 
= 3.5 es 0.20. 


d) La probabilidad de cometer un error de tipo II cuando u 
= 3.5 es 0.80. 


e) La probabilidad de cometer un error de tipo II cuando y 
= 3.5 es 0.20. 


f) La probabilidad de que A, es falsa cuando u = 3.5 es 
0.80. 


. Si el tamaño de muestra permanece constante, y el nivel Q 


aumenta, entonces la potencia será 
aumenta, disminuye. 


. Opciones: 


. Si el nivel Y permanece constante, y el tamaño muestral au- 


menta, entonces la potencia . Opciones: au- 


mentará, disminuirá. 
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5. Una compañía productora de neumáticos afirma que los 


tiempos de vida de sus llantas tienen un promedio de cin- 
cuenta mil millas. Se sabe que la desviación estándar de los 
tiempos de vida de los neumáticos es de cinco mil millas. 
Se muestrean 100 neumáticos y se probará la hipótesis de 
que la media de los tiempos de vida de los neumáticos es, 
al menos, de cincuenta mil millas contra la alternativa que 
es menor. Suponga, que en efecto, la media verdadera de los 
tiempos de vida es de 49 500 millas. 


a) Establezca las hipótesis nula y alternativa. ¿Cuál es ver- 
dadera? 


b) Se ha decidido rechazar Hy si la media de muestra es 
menor a 49 400. Determine el nivel y la potencia de es- 
ta prueba. 


c) Si la prueba se realiza a un nivel de 5%, ¿cuál es la po- 
tencia? 


d) ¿En qué nivel se debe realizar la prueba con el propósi- 
to de que la potencia sea de 0.80? 


e) Le están dando la oportunidad de probar más neumáti- 
cos. ¿Qué tantas llantas se deben probar en total con el 
propósito de que la potencia sea de 0.80 si la prueba se 
hace a un nivel de 5%? 


. La media del tiempo de secado de cierta pintura en determi- 
nada aplicación es de 12 minutos. Se probará un nuevo adi- 
tivo para probar si reduce el tiempo de secado. Se pintarán 
cientos de muestras y se calculará la media del tiempo de 
secado X. Suponga que la desviación estándar poblacional 
del tiempo de secado es a” = 2 minutos. Sea y la media del 
tiempo de secado para la nueva pintura. La hipótesis nula 
By: p = 12 será probada contra la alternativa A|: q < 12. 
Suponga que los investigadores desconocen que la media 
verdadera del tiempo de secado de la nueva pintura es de 
11.5 minutos. 


a) Se decide rechazar H, si X = 11.7. Determine el nivel y 
la potencia de esta prueba. 


b) ¿Para qué valores de X se debe rechazar H, con el pro- 
pósito de que la potencia de la prueba sea de 0.90? 
¿Cuál será entonces el nivel? 


c) ¿Para qué valores de X se debe rechazar H, con el pro- 
pósito de que el nivel de la prueba sea de 5%? ¿Cuál se- 
rá la potencia? 

d) ¿Qué tan grande se necesita que sea la muestra con el 
propósito de que una prueba de nivel 5% tenga potencia 
de 0.90? 


. Un cálculo de potencia ha mostrado que si uu = 8, la poten- 
cia de una prueba de Ap: 4 = 10 contra H¡: 4 < 10 es 0.90. 
Si en lugar de yu = 7, ¿cuál de los siguientes enunciados es 
verdadero? 


i) La potencia de la prueba será menor de 0.90. 
ii) La potencia de la prueba será mayor a 0.90. 


iii) No se puede determinar la potencia de la prueba sin co- 
nocer la desviación estándar poblacional «-. 


. Se supone que un nuevo proceso para producir placas de si- 


licio de circuitos integrados reduce la proporción de defec- 
tos en 10%. Se probará una muestra de 250 placas. Sea X el 
número de defectos en la muestra. Sea p la proporción po- 
blacional de defectos producidos por el nuevo proceso. Se 
hará una prueba de Hp: p = 0.10 contra HA: p < 0.10. Su- 
ponga que el valor verdadero de p es realmente 0.06. 


a) Se decide rechazar HA, si X = 18. Determine el nivel de 
esta prueba. 


b) Se decide rechazar Hy si X = 18. Determine la potencia 
de esta prueba. 


c) ¿Se debe utilizar la misma desviación estándar para X 
con el fin de calcular tanto la potencia como el nivel? 
Explique. 

d) ¿Cuántas placas se deben muestrear con el propósito de 
que la potencia sea de 0.90 si la prueba se hace a un ni- 
vel de 5%? 


. El siguiente resultado de MINITAB presenta los resultados 


de un cálculo de potencia para una prueba respecto de una 
proporción poblacional p. 


Power and Sample Size 
Test for One Proportion 


Testing proportion = 0.5 
versus not = 0.5) 


Alpha = 0.05 
Alternative Sample 
Proportion Size Power 
0.4 150 0.691332 


a) ¿La potencia calculada para una prueba es de una o de 
dos colas? 


b) ¿Cuál es la hipótesis nula para la cual se calcula la po- 
tencia? 

c) ¿Para qué valor alterno de p es la potencia calculada? 

d) Si el tamaño muestral fuera de 100, ¿sería la potencia 
menor que 0.7, mayor a 0.7, o es imposible deducirlo 
del resultado? Explique. 

e) Si el tamaño muestral fuera 200, ¿la potencia sería me- 
nor que 0.6, mayor a 0.6, o es imposible deducirlo del 
resultado? Explique. 
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f) Para un tamaño de muestra de 150, ¿la potencia contra g) Para un tamaño de muestra de 150, ¿la potencia contra 

la alternativa p = 0.3 es menor que 0.65, mayor que la alternativa p = 0.45 es menor que 0.65, mayor que 

0.65, o es imposible deducirlo del resultado? Explique. 0.65, o es imposible deducirlo del resultado? Explique. 

10. El siguiente resultado de MINITAB presenta los resultados de un cálculo de potencia con respecto a una media poblacional y. 


11. 


Power and Sample Size 
1-Sample t Test 


Testing mean = null (versus > null) 
Calculating power for mean = null + difference 
Alpha = 0.05 Assumed standard deviation = 1.5 


Sample Target 
Difference Size Power Actual Power 
1 18 0.85 0.857299 


a) ¿La potencia calculada para una prueba es de una o de dos colas? 

b) Suponga que el valor de y utilizado para la hipótesis nula es 4 = 3. ¿Para qué valor alterno de yu se calcula la potencia? 

c) Si el tamaño muestral fuera 25, ¿la potencia sería menor que 0.85, mayor que 0.85, o es imposible deducirlo del resultado? 
Explique. 

d) Si la diferencia fuera 0.5, ¿la potencia sería menor que 0.90, mayor que 0.90, o es imposible deducirlo del resultado? Ex- 
plique. 

e) Si el tamaño muestral era de 17, ¿la potencia sería menor que 0.85, mayor que 0.85, o es imposible deducirlo del resulta- 
do? Explique. 


El siguiente resultado de MINITAB presenta los resultados de un cálculo de potencia para una prueba de la diferencia entre dos 
medias 4; — >. 


Power and Sample Size 
2-Sample t Test 


Testing mean 1 = mean 2 (versus not =) 
Calculating power for mean 1 = mean 2 + difference 
Alpha = 0.05 Assumed standard deviation = 5 


Sample Target 
Difference Size Power Actual Power 
3 60 0.9 0.903115 


The sample size is for each group. 


a) ¿La potencia calculada para una prueba es de una o de dos colas? 


b) Si los tamaños de muestra fueran 50 en cada grupo, ¿la potencia sería menor que 0.9, mayor que 0.9, o es imposible dedu- 
cirlo del producto? Explique. 


c) Si la diferencia fuera 4, ¿la potencia sería menor que 0.9, mayor que 0.9, o es imposible deducirlo del resultado? Explique. 
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6.14 Pruebas múltiples 


A veces se presenta una situación en la que es necesario realizar muchas pruebas de hipóte- 
sis. La regla básica de esta situación es que entre más pruebas se realicen, la confianza que se 
puede tener en los resultados disminuye. En esta sección se presenta un ejemplo para ilustrar 
dicho enfoque. 

En cierta aplicación industrial, se supone que la aplicación de una capa dura que con- 
tiene partículas muy pequeñas de carburo de tungsteno puede reducir el desgaste en engranes 
de levas. Hay muchas formulaciones posibles para la capa, variando el tamaño y la concen- 
tración de las partículas de carburo de tungsteno. Se elaboraron 20 formulaciones diferentes. 
Cada una se probó aplicándola a muchos engranes, y después se midió el desgaste de éstos 
después de transcurrido cierto lapso. Se sabe, con base en la experiencia, que la media del des- 
gaste para engranes no cubiertos en dicho periodo es de 100 ¡um. Para cada formulación se 
hizo una prueba de la hipótesis nula Aj: 4 = 100 um. Ay muestra que la formulación no re- 
duce el desgaste. Para 19 de las 20 formulaciones, el P-valor era mayor a 0.05, por lo que H, 
no fue rechazada. Para una formulación, A, fue rechazada. Podría parecer natural llegar a la 
conclusión de que esta formulación reduce realmente el desgaste. Los ejemplos 6.34 a 6.37 
mostrarán que esta conclusión es prematura. 


Si sólo se probó una formulación, y no tenía ningún efecto sobre el desgaste, ¿cuál es la pro- 
babilidad de que Ay fuera rechazada, dando como resultado una conclusión equivocada? 


Solución 

Si la formulación no tiene ningún efecto sobre el desgaste, entonces yu = 100 ¡um, por lo que 
HA, es verdadera. Rechazar A, representa un error de tipo I. Por tanto, la cuestión es pregun- 
tarse por la probabilidad de un error de tipo I. En general, esta probabilidad es siempre me- 
nor que o igual al nivel de significancia de la prueba, que en este caso es de 5%. Debido a que 
p = 100 está en la frontera de A, la probabilidad de un error de tipo l es igual al nivel de sig- 
nificancia. La probabilidad de que A, se rechazará es 0.05. 


Como consecuencia de que HA, fue rechazada para una de las 20 formulaciones, ¿es factible 
que realmente no tenga ningún efecto sobre el desgaste? 


Solución 

Sí es factible que ninguna de las formulaciones, incluyendo la que rechazó H,, tenga algún 
efecto sobre el desgaste. Se hicieron 20 pruebas de hipótesis. Para cada prueba había una pro- 
babilidad de 5% (es decir, una oportunidad entre 20) de un error del tipo 1. Por tanto, se es- 
pera que, en promedio, de las 20 hipótesis nulas verdaderas, una será rechazada. Por lo que 
rechazar A, es una, exactamente, de las 20 pruebas que se esperaría para el caso de que en 
ninguna de las formulaciones hubiera diferencia. 
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Si, en efecto, ninguna de las 20 formulaciones tiene efecto en el desgaste, ¿cuál es la proba- 
bilidad de que H, sea rechazada en una o más de éstas? 


Solución 

Se encuentra primero la probabilidad de que la conclusión correcta (no rechazar H¿) se toma 
para todas las formulaciones. Para cada formulación, la probabilidad de que A, no sea recha- 
zada es 1 — 0.05 = 0.93, por lo que la probabilidad de que H, no sea rechazada para ningu- 
na de las 20 formulaciones es (0.95) = 0.36. Por tanto, la probabilidad es 1 — 0.36 = 0.64 
de que es incorrecto rechazar A para una o más de las formulaciones. 


El experimento se repite. Esta vez el operador se olvida de aplicar las capas, así que cada una 
de las 20 mediciones de desgaste realmente se hacen en engranes no cubiertos. ¿Es probable 
que una o más de las formulaciones parecerán reducir el desgaste, en tal caso A, probable- 
mente será rechazada? 


Solución 
Sí. El ejemplo 6.36 muestra que la probabilidad es 0.64 de que una o más de las capas pare- 
cerá reducir el desgaste, aun si no se aplica realmente la capa. 


Los ejemplos 6.34 a 6.37 ilustran un fenómeno conocido como problema de la prueba 
múltiple. En otras palabras, el problema de prueba múltiple es éste: cuando se rechaza H,, se 
tienen fuertes evidencias de que es falsa, pero ello no significa que haya certeza en dicha con- 
clusión. En ocasiones una hipótesis nula verdadera será rechazada. Cuando se realizan mu- 
chas pruebas, es más probable que algunas hipótesis nulas verdaderas sean rechazadas. Por 
tanto, cuando se realizan muchas pruebas, es difícil decir cuáles de las hipótesis nulas recha- 
zadas son realmente falsas y a cuáles les corresponden errores de tipo 1. 


El método de Bonferroni 


Este método proporciona una manera de ajustar P-valores hacia arriba cuando se realizan al- 
gunas pruebas de hipótesis. Si un P-valor permanece pequeño después del ajuste, la hipótesis 
nula puede ser rechazada. Para hacer el ajuste de Bonferroni, sólo multiplique el P-valor por 
el número de pruebas realizadas. He aquí dos ejemplos. 


Se prueban cuatro diferentes formulaciones de capa para verificar si reducen el desgaste so- 
bre engranes de levas a un valor debajo de los 100 ¡um. La hipótesis nula A: 4 = 100 ¡um es 
probada para cada formulación, y los resultados son 


Formulación A: P=0.37 
Formulación B: P=0.41 
Formulación C: P= 0.005 
Formulación D: P=0.21 
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El operador sospecha que la formulación C podría ser eficaz, pero sabe que el P-valor de 
0.005 es poco fiable porque se han realizado algunas pruebas. Utilice el ajuste de Bonferroni 
para producir un P-valor confiable. 


Solución 

Se realizaron cuatro pruebas, por lo que el ajuste de Bonferroni producía P = (4)(0.005) = 
0.02 para la formulación C, por lo que la evidencia es razonablemente fuerte de que la formu- 
lación C es eficaz. 


Se supone que en el ejemplo 6.38 el P-valor de la formulación C era 0.03 en lugar de 0.005. 
Entonces ¿a qué conclusión llegaría? 


Solución 

El ajuste de Bonferroni produciría P = (4)(0.03) = 0.12. Esto no es probablemente una evi- 
dencia fuerte para concluir que la formulación C es eficaz. Debido a que el P-valor original 
era pequeño, es probable que sería deseable no querer abandonar aún más la formulación C. 


El ajuste de Bonferroni es conservador; en otras palabras, el P-valor que produce nun- 
ca es menor que el P-valor verdadero. En este sentido, cuando el P-valor con el ajuste de Bon- 
ferri es pequeño, con seguridad la hipótesis nula puede rechazarse. Desafortunadamente, 
como se muestra en el ejemplo 6.39, hay muchas ocasiones en las que el P-valor original es 
bastante pequeño para suscitar una fuerte sospecha de que una hipótesis nula podría ser fal- 
sa, pero el ajuste de Bonferroni no permite rechazar la hipótesis. 

Cuando el P-valor con el ajuste de Bonferroni es demasiado grande para rechazar una 
hipótesis nula, aun cuando el P-valor original sea bastante pequeño para sospechar que la hi- 
pótesis es efectivamente falsa, con frecuencia lo mejor es reexaminar la hipótesis que parece 
falsa mediante datos de un nuevo experimento. Si el P-valor es de nuevo pequeño, esta vez 
sin pruebas múltiples, ello proporciona evidencias reales contra la hipótesis nula. 

A los procesos industriales reales se les da seguimiento mediante muestreo y con la 
comprobación del resultado del proceso para verificar si se satisfacen las especificaciones. 
Con frecuencia, el resultado parece alejado de las especificaciones. Pero en estos casos, ¿Có- 
mo se sabe si el proceso realmente funciona mal (fuera de control) o si el resultado es un error 
de tipo 1? Ésta es una versión del problema de pruebas múltiples que ha recibido mucha aten- 
ción. El tema de control de calidad estadístico (véase el capítulo 10) está dedicado, en gran 
parte, a encontrar las maneras para superar el problema de pruebas múltiples. 


Ejercicios para la sección 6.14 


1. Se prueban seis ajustes diferentes en una máquina con el fin a) Determine el P-valor con el ajuste de Bonferroni para 
de comprobar si ninguno reducirá la proporción de piezas el ajuste cuyo P-valor es 0.002. ¿Puede concluir que este 
defectuosas. Para cada ajuste se prueba una adecuada hipó- ajuste reduce la proporción de piezas defectuosas? Ex- 
tesis nula para verificar si la proporción de piezas defectuo- plique. 
sas se ha reducido. Los seis P-valores son 0.34, 0.27, 0.002, b) Determine el P-valor con el ajuste de Bonferroni para el 


0.45, 0.03 y 0.19. ajuste cuyo P-valor es 0.03. ¿Puede concluir que este 


ajuste reduce la proporción de partes defectuosas? Ex- 
plique. 


2. Se operan cinco variaciones diferentes de un proceso para 


fabricar pernos con el propósito de verificar si alguna pue- 
de aumentar la media de la fuerza de ruptura sobre el pro- 
ceso actual. Los P-valores son 0.13, 0.34, 0.03, 0.28 y 0.38. 
De las siguientes elecciones, ¿cuál será la siguiente opción 
que se aplicará? 


1) Instrumentar el proceso cuyo P-valor fue 0.03, ya que se 
realiza mejor. 


ii) Debido a que ninguno de los procesos tenía P-valores 
con el ajuste de Bonferrani menores de 0.05, se debe 
continuar con el proceso actual. 


iii) Repetir el proceso cuyo P-valor era 0.03 para ver si per- 
manece pequeño en ausencia de pruebas múltiples. 


iv) Repetir las cinco variaciones otra vez, para ver si ningu- 
na de ellas produce un P-valor pequeño la segunda vez. 


. Se están probando veinte formulaciones de una capa con el 
fin de comprobar si alguna de ellas reduce el desgaste de los 
engranes. Con la idea de que el P-valor con el ajuste de 
Bonferroni para una formulación sea 0.05, ¿cuál debe ser el 
P-valor original? 


. Se han estado probando cinco nuevos aditivos de pintura 
con el fin de verificar si alguno puede reducir la media del 
tiempo de secado del valor actual de 12 minutos. Se pinta- 
ron diez muestras con cada una de los nuevos tipos de pin- 
tura y se midieron los tiempos de secado (en minutos). Los 
resultados fueron: 


Aditivo 
A B C D E 


14.573 10.393 15.497 10.350 11.263 
12.012 10.435 9.162 7.324 10.848 
13.449 11.440 11.394 10.338 11.499 
13.928 9.719 10.766 11.600 10.493 
13.123 11.045 11.025 10.725 13.409 
13.254 11.707 10.636 12.240 10.219 
12.772 11.141 15.066 10.249 10.997 
10.948 9.852 11.991 9.326 13.196 
13.702 13.694 13.395 10.774 12.259 
11.616 9474 8.276 11.803 11.056 
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Para cada aditivo realice una prueba de hipótesis de la 
hipótesis nula Ay: y = 12 contra la alternativa H¡: py < 12. 
Puede suponer que cada población es aproximadamente 
normal. 


a) ¿Cuáles son los P-valores para las cinco pruebas? 


b) Con base en los resultados, ¿cuál de las tres conclusio- 
nes siguientes parece más adecuada? Explique su res- 
puesta. 


i) Al menos uno de los nuevos aditivos mejora el resul- 
tado. 


i) Ninguno de los nuevos aditivos mejora el resultado. 


iii) Algunos de los nuevos aditivos mejoran el resultado, 
pero las pruebas no son concluyentes. 


. A diario, durante 200 días, un ingeniero responsable de la 


calidad muestrea 144 fusibles tasados en 15 A y mide el am- 
peraje con el que se queman. Realiza una prueba de hipóte- 
sis de Ap: 4 = 15 contra H¡: uy + 15, donde y es la media 
del amperaje con que se queman los fusibles fabricados ese 
día. 


a) Durante diez de los 200 días, H, es rechazada a un nivel 
de 5%. ¿Esto último proporciona la evidencia conclu- 
yente de que la media del amperaje de quemado era di- 
ferente de 15 A en al menos uno de los 200 días? 
Explique. 

b) ¿Sería la respuesta en el inciso (a) diferente si A hubie- 
ra sido rechazada en 20 de los 200 días? Explique. 
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6.15 Uso de la simulación para realizar 


pruebas de hipótesis 


SiX;,...,X, son variables aleatorias independientes, con desviaciones estándar conocidas 
Oj, ...,0,, y U=U(X;,..., X,) es una función de X;,..., X,, entonces el método de pro- 
pagación del error (véase el capítulo 3) se puede utilizar para calcular la desviación estándar, 
O la incertidumbre, en U. Si además las variables aleatorias X,,..., X, están distribuidas nor- 
malmente, con frecuencia, pero no siempre, se da el caso de que U también está distribuida 
aproximadamente en forma normal. En estos casos se pueden realizar pruebas de hipótesis so- 
bre la media uu, de U. Para determinar sí U está distribuida normalmente se puede utilizar la 
simulación. El método es similar al descrito en la sección 5.8. 

Se muestra con un ejemplo. Sea R la medición del radio de un cilindro, y A la medición 
de la altura. Suponga que ambas mediciones no tienen sesgos y están normalmente distribui- 
das. Sea V = TR“H la medida del volumen del cilindro que se calcula de R y H. Ahora supon- 
ga que R = 4.8 cm, H = 10.1 cm, y las incertidumbres (desviaciones estándar) son dz = 0.1 
cm y dy = 0.2 cm. El volumen medido es V = 1(4.8)(10.1) = 731.06 cm”. Suponga que se 
desea determinar si se puede concluir que el volumen verdadero del cilindro es mayor a 700 
cm'. Sea uy la media de V. Dado que R y H no tienen sesgos, con incertidumbres bastante pe- 
queñas, V está cercanamente sin sesgos (véase el análisis en la p. 173), por lo que uy está cer- 
ca del volumen verdadero del cilindro. Por tanto, se puede tratar la pregunta respecto del 
volumen verdadero realizando una prueba de hipótesis H,: uy < 700 contra H;: y > 700. 

Se inicia mediante el método de la propagación del error para calcular la incertidumbre 


en V: 
avY , UN 
Oy = IR OR + JH Oy 
= y OrRHYo + (AR3o) 


= y (27(4.8)(10.1)12(0.1)? + [r(4.82)]2(0.2)? 
=33.13 


Ahora si el volumen medido V está distribuido normalmente, se puede proceder de la siguien- 
te manera: bajo Hp, V — NC00, 33.737). Se observa el valor V = 731.06. El P-valor para Ho: 
Hy E 700 es P(V = 731.06) donde la probabilidad se calcula bajo la suposición de que V — 
N(700, 33.73?). El puntaje z es (731.06 — 700)/33.73 = 0.92, y el P-valor es 0.18. 

La validez de la prueba apenas realizada depende de la suposición de que V está nor- 
malmente distribuido. Se comprueba esta suposición con una simulación. Se genera, prime- 
ro, un gran número N de valores R'í, ...., Ry para la medición de los radios. Se sabe que las 
mediciones de los radios están normalmente distribuidas con desviación estándar dr; = 0.1. 
No se conoce la media de las mediciones del radio, que es igual al radio verdadero, pero se 
puede aproximar a ésta con el valor observado 4.8. Por tanto, se genera Rí, .... , Ry de la dis- 
tribución N(4.8, 0.15. Similarmente, se genera Hi, ..., Hi de la distribución N(10.1, 00% 
Después se calculan mediciones de volumen simuladas V; = T (RI Hi. Una gráfica de proba- 
bilidad normal de V; se puede, entonces, utilizar para determinar si V es aproximadamente 
normal. 
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La figura 6.30 presenta una gráfica de probabilidad normal para una muestra de mil va- 
lores de V;. Se satisface la suposición de normalidad. El P-valor de 0.18 es válido. 

Por ultimo, se hace la observación de que si se satisface la suposición de normalidad, 
la desviación estándar muestral V se puede utilizar en lugar del valor 33.73 que se calculó 
con la propagación del error. En la muestra de mil que se generó, la desviación estándar de 
muestra era de 31.67, que estaba razonablemente cerca del valor calculado con la propaga- 
ción del error. 
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FIGURA 6.30 Gráfica de la probabilidad normal para mil volúmenes simulados. La su- 
posición de normalidad parece estar justificada. 


Pruebas de hipótesis con intervalos de confianza bootstrap 


Dado un intervalo de confianza de nivel 100(1 — 0)% para un parámetro, tal como una media 
poblacional ¡u, se puede rechazar la hipótesis nula a un nivel de 1000:% de que el parámetro 
sea igual para cualquier valor dado fuera del intervalo, y no se puede rechazar la hipótesis nula 
a un nivel de 1000:% de que el parámetro sea igual para cualquier valor dado dentro del inter- 
valo (véase el análisis al inicio de la p. 381). Esta idea se puede aplicar a un intervalo de con- 
fianza bootstrap para construir una prueba de hipótesis de nivel fijo. Se presenta un ejemplo. 


En la sección 5.8 un intervalo de confianza de 95% aproximado para la media del millaje, en 
millas/galón, de una población de camiones se encontró, con un método bootstrap, que era de 
(4.7643, 6.4757). ¿Se puede concluir a un nivel de 5% que la media poblacional del millaje 
difiere de 5 mi/galón? ¿De 7 mi/galón? 
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Solución 

Un intervalo de confianza de 95%, si se calculó mediante bootstrap u otros medios, contiene 
los valores que no son rechazados a un nivel de 5%. Por tanto, se concluye que a un nivel de 
5% la media poblacional difiere de 7 mi/galón, pero no se puede concluir que en ese nivel 
difiere de 5 mi/galón. 


Pruebas aleatorias 


Las pruebas aleatorias también se llaman pruebas de permutación; estaban entre los primeros 
métodos desarrollados para probar la diferencia entre dos medias poblacionales. Mientras no 
requieran ninguna suposición acerca de la distribución de los datos, implican muchos cálculos 
y no eran realmente viables hasta hace más o menos poco tiempo. Se presenta un ejemplo. 

Una científica quiere determinar si la producción de lechuga se incrementará con el uso 
de un fertilizante con mayor contenido de nitrógeno. Dirige un experimento que implica 20 
parcelas. Se eligen aleatoriamente diez de éstas para tratarse con el fertilizante A, que tiene 
un bajo contenido de nitrógeno. Las otras diez parcelas se tratan con el fertilizante B, que tie- 
ne un mayor contenido de nitrógeno. 

La siguiente tabla presenta el tratamiento aplicado (A o B) para cada parcela y la pro- 
ducción, según la cantidad de plantas de lechuga cosechadas. 


Número de parcela 


2 34 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 


Tratamiento 
Cosecha 


A A B B A A A B B A A B A A B B B B A .B 
145 142 144 141 142 155 143 157 152 143 103 151 150 148 150 162 149 158 144 151 


La hipótesis nula es que no hay ninguna diferencia entre los fertilizantes con respecto 
a la cosecha; en otras palabras, la cosecha para cada parcela habría sido la misma sin que im- 
portara el tipo de fertilizante que había recibido. Por ejemplo, la cosecha en la parcela 1 ha- 
bría sido de 145, ya sea que se hubieran usado los fertilizantes tipos A o B. Si A, es verdadera, 
entonces las 20 producciones observadas son constantes y las producciones relacionadas con 
el fertilizante B son una muestra aleatoria simple de diez de estas 20 cosechas constantes. De- 
note la media de las diez cosechas asociadas con el fertilizante A por A, y la media de las diez 
cosechas asociadas con el fertilizante B por B. Debido a que el interés principal en el experi- 
mento es determinar si el fertilizante B aumenta la cosecha, un estadístico de prueba razona- 
ble es la diferenciar B — A. El valor observado de este estadístico es 151.5 — 141.5 = 10.0. 
Entre mayor sea el valor del estadístico de prueba, más fuerte es la evidencia contra A. La 
fuerza de la evidencia se mide por medio del P-valor. Ahora se analiza cómo calcular el P-valor. 

El experimento implica una elección aleatoria de diez parcelas de las 20 que reciben el 
fertilizante A. En general, el número de elecciones diferentes de k artículos que serán selec- 
cionados de un grupo de 11 elementos se denota por de y está dado por (véase la ecuación 
2.12 de la sección 2.2 para su deducción) 


ny n! 
(7) —kim—=k)! 
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Por tanto, el número de elecciones posibles para estas diez parcelas es al = 184 756. Esto 


último significa que hay tal cantidad de maneras de que el experimento pudiera tener un re- 
sultado; el experimento verdadero consiste en observar una de ellas elegida aleatoriamente. 
La elección que se tomó en realidad proporcionó un valor de B — A = 10 para el estadístico 
de prueba. Debido a que, bajo H,, las producciones no dependen de qué tipo de fertilizante se 
utilizó, se podría, en principio, calcular el valor del estadístico de prueba B — A para cada uno 
de los 184 756 resultados posibles del experimento. El P-valor es la probabilidad, bajo A, de 
que el estadístico de prueba tenga un valor igual o mayor a diez. Esta probabilidad es igual a 
la proporción de los 184 756 resultados posibles del experimento para los cuales B — A = 10. 
La tabla 6.6 presenta un listado parcial de los resultados posibles del experimento. 


TABLA 6.6 Resultados posibles del experimento aleatorio 


Resultado 


1 


184 755 


184 756 


Cosechas asignadas aA Cosechas asignadas a B A B BA 
103 141 142 142 143 149 150 150 151 151 139.5 153.5 14.0 
143 144 144 145 148 152 155 157 158 162 
103 141 142 142 143 148 150 150 151 151 139.6 153.4 13.8 
143 144 144 145 149 152 155 157 158 162 
148 150 150 151 151 103 141 142 142 143 153.4 139.6 13.8 
152 155 157 158 162 143 144 144 145 149 
149 150 150 151 151 103 141 142 142 143 153.5 139.5 -140 
152 155 157 158 162 143 144 144 145 148 


El P-valor exacto se puede encontrar cuando se completa la tabla 6.6 y después al de- 
terminar la proporción de resultados para los cuales B — A = 10. Este procedimiento se lla- 
ma prueba aleatoria, o prueba de permutación. Calcular el P-valor exacto es una tarea 
intensiva, aun para una computadora. El método más fácil, bueno en la práctica, es trabajar 
con un conjunto de resultados generados aleatoriamente. Esto último se hace cuando se gene- 
ra un número grande (mil o más) de subconjuntos elegidos aleatoriamente entre diez produc- 
ciones asignadas al tratamiento A. Cada subconjunto elegido corresponde a uno de los 
resultados posibles del experimento, y para cada subconjunto se calcula el valor del estadís- 
tico de prueba. El P-valor se aproxima con la proporción de resultados elegidos aleatoriamen- 
te para los cuales el valor del estadístico de prueba es igual o mayor al valor observado de 
diez. 

La tabla 6.7 presenta los primeros cinco y los últimos de mil resultados elegidos alea- 
toriamente para el experimento. De los primeros cinco resultados, ninguno de ellos tiene va- 
lores de B — A mayores que o iguales a diez, por lo que la estimación del P-valor basado en 
estos cinco es 0/5 = 0. Por supuesto, cinco resultados no son suficientes para obtener una con- 
clusión confiable. De todo el conjunto de los mil resultados, solamente nueve tenían valores 
de B — A mayores o iguales a diez. Por tanto, se calcula que el P-valor es de 0.009, bastante 
pequeño para rechazar de manera tajante la hipótesis nula de que no hay ninguna diferencia 
entre los fertilizantes. Parece razonable concluir que el fertilizante tipo B tiende a aumentar 
la producción. 
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TABLA 6.7 Mil resultados simulados del experimento aleatorio 


Resultado Cosechas asignadas a A Cosechas asignadas a B A B B-A 
150 155 144 143 181 152158149 162.151 10770 14530 -240 
z 151 155 150 148 1a1 16217150152 145 14420 14880 460 
155 1o3 143 144 157 ISO tá negar asr 1550 14750 200 
j 142 162 148 149 158 150182 151 163 142 0890 14410 4380 
: 155 162 103 150 151 183 181 1á3 11 tao 460 1660 020 
OS OO NRIIS cs oo a 


Los experimentos aleatorios, como el recién descrito, tienen un papel muy importante 
en las investigaciones científicas y se analizan con más profundidad en el capítulo 9. Cuando 
ningún dato atípico está presente, se ha mostrado que la prueba f de Student para la diferen- 
cia entre medias (véase la sección 6.7) proporciona una buena aproximación a la prueba alea- 
toria cuando se están comparando dos tratamientos. Los datos de los experimentos aleatorios 
se pueden tratar, en general, como si consistieran de muestras aleatorias de poblaciones dife- 
rentes; éste es el enfoque que se tomará en el capítulo 9. El trabajo de Freedman, Pisani y Pur- 
ves (1998) contiene un buen análisis de este tema. A veces también las pruebas de rango 
(véase la sección 6.9) se usan para estos experimentos. 

Las pruebas aleatorias se pueden utilizar en algunos casos cuando los datos consisten 
de dos muestras de dos poblaciones, que es el caso que se analiza en la sección 6.7. Por tan- 
to, las pruebas aleatorias pueden ser una alternativa a la prueba 1 para la diferencia entre me- 
dias cuando hay datos atípicos. 

Se puede encontrar más información sobre pruebas aleatorias en Efron y Tibshirani 
(1993). 


Uso de la simulación para calcular la potencia 


Para algunas pruebas es difícil calcular la potencia con una fórmula; en estos casos, con fre- 
cuencia se puede utilizar la simulación para calcularla. A continuación se muestra un ejemplo. 


Se está desarrollando un nuevo tipo de soldadura. Si se demuestra concluyentemente que la 
media de la dureza de fractura de la soldadura es mayor de 20 pies-Ib, la soldadura se usará 
en cierta aplicación. Suponga que la dureza está distribuida normalmente con desviación es- 
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tándar igual a 4 pies-1b. Se harán seis soldaduras, y se medirá la dureza de fractura de cada 
una. Se hará una prueba 1 de Student de la hipótesis nula Ay: 1 < 20 contra H;: 4 > 20. Si 
la prueba se realiza en un nivel de significancia de 5%, ¿cuál es la potencia de la prueba si la 
media verdadera de la dureza es 25 pies -1b? 


Solución 

Sean X,, ...., Xs las seis durezas de la muestra, y s la desviación estándar muestral. Ésta es 
una muestra de una distribución N(25, 16). El estadístico de prueba es T = (X — 20)(s/,/6). 
Bajo H,, esta estadística tiene una distribución £ de Student con cinco grados de libertad. La 
hipótesis nula será rechazada si el valor del estadístico de prueba es mayor que fs 705 = 2.015. 
Por tanto, la potencia, es igual a P(T > 2.015). No es fácil calcular esta probabilidad directa- 
mente, ya que la hipótesis nula es falsa, por lo que T no tiene la distribución £ de Student. Sin 
embargo, se puede estimar con un experimento de simulación. 

Se generarán diez mil muestras Xi; ..., Xg;, cada uno de la distribución N(25, 16). Pa- 
ra cada muestra se calculará la media muestral X*, la desviación estándar muestral s;, y el es- 
tadístico de prueba 7? = (X?— 201( s*/,/6). Debido a que cada muestra simulada es extraída 
de la misma distribución, como las durezas verdaderas de las soldaduras, cada muestra simu- 
lada es estadísticamente equivalente a una muestra de soldadura verdadera. Por tanto, sólo se 
puede estimar la potencia cuando se calcula la proporción de muestras simuladas para las que 
se rechaza la hipótesis nula, esto es, para la cual el valor del estadístico de prueba es mayor a 
2.015. La tabla 6.8 presenta los resultados para las diez primeras muestras y las últimas. La 
columna derecha contiene un “1” si el valor del estadístico de prueba es mayor a 2.015, y un 
“0” sí la situación es otra. 

La hipótesis nula se rechaza para nueve de las diez primeras muestras. Si se basaron los 
resultados en éstas, se estimaría la potencia de 0.9. Por supuesto, diez muestras no son sufi- 
cientes. De las diez mil muestras, la hipótesis nula fue rechazada para 8 366 de ellas. La es- 
timación de la potencia es, por tanto, 0.8366. 


TABLA 6.8 Datos simulados para el ejemplo 6.41 


io Xi: Xx Xx x Xx x xs s T*  T*>2.015 
1 2324 23.78 1565 25.67 2408 2588 23.05 3.776 1.978 0 
2 2651 1989 20.53 2503 2835 28.01 24.72 3.69 3.131 1 
3 2861 28.19 2948 2006 30.00 21.19 2626 4423 3.465 1 
4 2284 2869 2393 2737 1951 3028 2544 4046 3.291 1 
5 2236 2126 2637 23.61 3445 2997 2634 5.061 3.067 1 
6 26.54 28.63 24.79 20.63 2544 2669 2545 2.703 4.940 1 
7 2405 2442 2032 23.74 24.14 2466 2356 1615 5.394 1 
8 2838 29.51 2380 29.05 2639 2376  268l 2579 6472 1 
9 2355 2173 1957 2504 2234 29.71 2366 3.484 2.570 1 
10 2998 3465 21.17 2843 2343 3444 2868 5.559 3.825 1 
10000 30.75 1999 2620 2241 3153 2178 2545 4862 2744 1 
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Ejercicios para la sección 6.15 


1. Este ejercicio es una continuación del 9 de los ejercicios iii) Ho: y = 38.45 


adicionales del capítulo 3. El artículo “Insights into Present- 
Day Crustal Motion in the Central Mediterranean Area 
from GPS Surveys” (M. Anzidei, P. Baldi y cols., en 
Geophysical Journal International, 2001:98-100) notifica 
mediciones de la velocidad de la corteza terrestre en Zim- 
merwald, Suiza. La componente de la velocidad en direc- 
ción norte se midió de X = 22.10, y la componente en 
dirección este se midió de Y = 14.30, donde las unidades 
son mm/año. Las incertidumbres en las mediciones están 
dadas como dx = 0.34 y dy = 0.32. 


a) Calcule la velocidad estimada V de la corteza terrestre 
basado en estas mediciones. Utilice el método de propa- 
gación del error para calcular su incertidumbre. 


b) Suponiendo que la velocidad esté normalmente distribui- 
da, encuentre el P-valor para la hipótesis Hp: py < 25. 


c) Suponiendo que las componentes de la velocidad en las 
direcciones norte y este son independientes y están dis- 
tribuidas normalmente, genere una adecuada muestra si- 
mulada de los valores V*. ¿Es razonable suponer que V 
se distribuye aproximadamente normal? 


. Un genetista de población está estudiando los genes encon- 
trados en dos ubicaciones diferentes sobre el genoma. Él 
calcula que la proporción p, de organismos que tienen un 
gen A en la primera ubicación es p, = 0.42, con incertidum- 
bre de 9, = 0.049. Asimismo, calcula la proporción de or- 
ganismos que tienen un gen B en la segunda posición de Pp, 
= 0.23, con incertidumbre d,= 0.043. Bajo las suposiciones 
que usualmente se hacen en poblaciones genéticas (equili- 
brio de Hardy-Weinberg), P, y P, son independientes y están 
normalmente distribuidos, y la proporción p de organismos 
que tienen tanto genes A como B se estima con p = P; P». 


a) Calcule $) y utilice la propagación del error para calcu- 
lar su incertidumbre. 


b) Suponga que P está normalmente distribuido, encuentre 
el P-valor para probar Ay: p = 0.10. 


c) Genere una muestra simulada adecuada de valores [*. 
¿Es razonable suponer que p está normalmente distri- 
buido? 


. Con referencia al ejercicio 6 de la sección 5.8, sea yu la me- 
dia poblacional de la fuerza compresiva, en MPa. Conside- 
re las siguientes hipótesis nulas: 


1) Hoy  = 38.53 
ii) Hy: y = 38.35 


iv) Ho: pH = 38.55 


a) Con los datos bootstrap presentados en el ejercicio 6 de 
la sección 5.8, ¿cuál de estas hipótesis nulas se puede re- 
chazar a un nivel de 5%, si se construye un intervalo de 
confianza con el método 1 de la p. 358? 


b) Utilizando los datos bootstrap presentados en el ejerci- 
cio 6 de la sección 5.8, ¿cuál de estas hipótesis nulas se 
puede rechazar a un nivel de 10%, si se construye un in- 
tervalo de confianza mediante el método 1 de la p. 358? 


. Con referencia al ejercicio 6 de la sección 5.8, sea u la me- 


dia poblacional de la fuerza compresiva, en MPa. Genere 
mil muestras bootstrap. 


a) Utilizando los datos bootstrap que usted generó, ¿cuál 
de estas hipótesis nulas se puede rechazar a un nivel de 
5%, utilizando el método 1 de la p. 358? 


b) Utilizando los datos bootstrap que usted generó, ¿cuál 
de estas hipótesis nulas se puede rechazar a un nivel de 
10%, con el método 1 de la p. 358? 


c) Si se realiza un experimento bootstrap dos veces con los 
mismos datos, ¿es necesario que los resultados concuer- 
den? Explique. 


. En el ejemplo de la cosecha de lechugas presentado en la p. 


464, ¿sería una buena idea utilizar la prueba £ descrita en la 
sección 6.7 para determinar si los fertilizantes difieren en 
sus efectos sobre la cosecha? ¿Por qué sí o no? 


. Se sospecha que utilizar gasolina premiun en lugar de regu- 


lar aumentará el millaje para automóviles con un diseño de 
motor especial. Se usan 16 automóviles en un experimento 
aleatorio. De la misma manera se eligen ocho para probar- 
los con gasolina regular, mientras que los otros ocho se 
prueban con gasolina premium. Los resultados, en mi/ga- 
lón, son los siguientes: 


Regular: 29.1 27.1 30.8 17.3 27.6 16.3 


28.4 30.2 
Premium: 28.3 32.0 27.4 35.3 29.9 35.6 
30.9 29.7 


a) Bajo la hipótesis nula de que cada automóvil obtendrá el 
mismo millaje con cualquier tipo de gasolina, ¿cuántos 
resultados diferentes son posibles para este experimento? 


b) Sean R y P la media de los millajes de media de mues- 
tra para los grupos de gasolina regular y premium, res- 
pectivamente. Calcule R y P. 
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c) Realice una prueba aleatoria para determinar si se pue- 
de concluir que la gasolina premium tiende a incremen- 
tar el millaje. Utilice el estadístico de prueba P — R. 
Genere al menos mil resultados aleatorios y calcule el 
P-valor. 


d) Utilice la prueba £ de Student descrita en la sección 6.7 
para probar la hipótesis nula de que la media del milla- 
je utilizando gasolina regular es mayor que o igual a la 
media del millaje utilizando gasolina premium. ¿Este 
resultado es confiable? Explique 


. Para los datos de la cosecha de lechuga (p. 464) se supone 
que las cosechas con el fertilizante tipo A podrían tener una 
varianza mayor que la varianza con el B. 


: De 2 
a) Calcule las varianzas muestrales sí y sz de las cosechas 
pr . . . 2 pe] 
atribuibles a A y B, respectivamente, y el cociente sí /sz. 


b) Alguien sugiere utilizar la prueba F para este problema 
en la sección 6.11. ¿Ésta es una buena idea? ¿Por qué sí 
o no? 


Cc) Realice una prueba aleatoria de Hp: ss = Ss contra H:: 
si > si utilizando el estadístico de prueba sá 15% y un 
mínimo de mil resultados aleatorios. 


(Sugerencia: Proceda de la misma manera que en el 
ejemplo del texto, pero para cada resultado calcule sí, 
sp y s4/55 en lugar de A, B, y B— A.) 


. Con referencia al ejercicio 6, realice una prueba aleatoria 
para determinar si el millaje de gasolina regular tiene una 
varianza mayor que la varianza del millaje utilizando gaso- 
lina premium. Genere al menos mil resultados aleatorios. 


. Se supone que cierto método de tratamiento de agua resi- 
dual se aplica con el propósito de que la media de su pH sea 
7. Se realizarán mediciones de pH en siete muestras de agua 
residual tratada, y se hará una prueba de hipótesis Hp: Hp = 
7 contra H;: q + 7 utilizando la prueba 1 de Student (sec- 
ción 6.4). Suponga que la media verdadera es u = 6.5, las 
mediciones de pH están normalmente distribuidas con me- 
dia yu y desviación estándar 0.5, y la prueba se efectúa a un 
nivel de 5%. 


a) Sean X;,..., Xy las mediciones de pH, sea que X deno- 
te su media, y sea que s denote la desviación estándar 
muestral. ¿Para cuáles valores del estadístico de prueba 
H, será rechazada? 


b) Genere diez mil pruebas X¡, ..., X3 de la distribución 
verdadera de las mediciones de pH. Para cada muestra, 
calcule el estadístico de prueba y determine si H, es re- 
chazada. Calcule la potencia de la prueba. 


10. Este ejercicio requiere de las ideas de la sección 2.6. En un 


experimento de dos muestras, cuando cada elemento en una 
muestra es apareado con un elemento en la otra, la prueba £ 
apareada (sección 6.8) se puede utilizar para probar hipóte- 
sis respecto de la diferencia entre dos medias poblacionales. 
Si se desprecia el hecho de que los datos están apareados, 
también se puede utilizar la prueba £ de dos muestras (sec- 
ción 6.7). La pregunta que surge es cuál prueba tiene la po- 
tencia mayor. El siguiente experimento de simulación se ha 
diseñado para abordar esta pregunta. 

Sea (X¡, Y¡), .. ., (Xz, Y¿) una muestra aleatoria de ocho 
pares, con X;, ... , Xz extraídos de una población N(0O, 1) y 
Vina da estrados de una población N(1, 1). Se desea pro- 
bar e Mx — My = 0 contra H¡: Hx — uy F+ O. Observe que 
px=0y Ne = e observe que las varianzas de población 
son iguales, por lo que la diferencia verdadera entre las me- 
dias es 1. También observe que las varianzas poblacionales 
son iguales. Si se hace una prueba a un nivel de significan- 
cia de 5%, ¿qué prueba tiene la mayor potencia? 

Sea D, = X; — Y¡parai= 1,..., 10. El estadístico de 
prueba para la prueba t apareada es D/(sp)//8), donde s, re- 
presenta la desviación estándar de los D, (véase la sección 
6.8). Su distribución nula es la £ de Student con siete grados 
de libertad. Por tanto, la prueba f apareada rechazará A) si 
[DIspI 8) > t, 025 = 2.365, por lo que la potencia es 
P(DKsp//8)| > 2.365). 

Para la prueba £ de dos muestras cuando las varianzas 
poblacionales son iguales, el estadístico de prueba es 
D/(s,/1/8+1/8 = D/(s,/2), donde 5, Constituye 
la desviación estándar combinada, que es igual en este caso 

a y (sí + 5s7)/2. (Véase la p. 411. Observe que D = X — 
Y.) La distribución nula es la £ de Student con 14 grados de 
libertad. Por tanto, la prueba t de dos muestras rechazará H, 
si [D/(s, V178+ 178) > f14,005 = 2.145, y la potencia 
es P(1D/(s,/1/8 + 178) + 1/8)| > 2.145). 

La potencia de estas pruebas depende de la correlación 
entre X; y Y,. 


a) Genere diez mil muestras Xí;, ..., Xy, de una población 
N(0, 1) y diez mil muestras Yi;, . . . , Y, de una pobla- 
ción de N(1, 1). Las variables aleatorias X;, y Y, son in- 
dependientes en este experimento, por lo que su correla- 
ción es O. Para cada muestra, calcule los estadísticos de 
prueba D'[(sj//8) y D*I(s7/2). Calcule la potencia de cada 
prueba mediante la proporción de muestras para las cua- 
les los estadísticos de prueba son mayores de su punto 
crítico (2.365 para la prueba apareada, 2.145 para la prue- 
ba de dos muestras). ¿Qué prueba tiene mayor potencia? 


b) Como en el inciso a), genere diez mil muestras Xi; ..., 
Xy, de una población N(0, 1). Esta vez, en lugar de gene- 
rar los valores Y* de manera independiente, genérelos 
para que la correlación entre X;, y Y, sea 0.8. Esto últi- 
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mo se puede hacer de la siguiente manera: genere diez 
mil muestras Zi;, . . ., Zg, de una población N(O0, 1), in- 
dependientemente de los valores de X*. Después calcu- 
le Yi = 1 + 0.8 Xí, + 0.6 Zj;. La muestra Yi; ..., Yi; 
proviene de una población de N(1, 1), y la correlación 


Los ejercicios 1 a 4 describen experimentos que requieren una 
prueba de hipótesis. Para cada experimento describa la prueba 
adecuada. Establezca las hipótesis nula y alternativa adecuadas, 
describa el estadístico de prueba y especifique qué tabla se de- 
be utilizar para determinar el P-valor. Si es pertinente, establez- 
ca el número de grados de libertad para el estadístico de prueba. 


1. 


Una flota de 100 taxis se divide en dos grupos de 50 automó- 
viles cada una para averiguar si la gasolina premium reduce 
gastos de mantenimiento. La gasolina sin plomo premium 
se utiliza en el grupo A, mientras que la gasolina sin plomo 
regular se emplea en el B. Se registra el costo total del man- 
tenimiento para cada automóvil durante un año. Se usará la 
gasolina premium si se demuestra que reduce gastos de man- 
tenimiento. 


Se elige un grupo de 15 nadadores para que participe en un 
experimento con el fin de comprobar si un nuevo estilo de 
respiración mejora su resistencia. Se mide que cada nadador 
recupera su ritmo del pulso después de 20 minutos median- 
te el viejo estilo de respiración. Los nadadores practican el 
nuevo estilo durante dos semanas, y luego miden el ritmo 
del pulso después de 20 minutos con el nuevo estilo. Conti- 
nuarán utilizando el nuevo estilo de respiración si se de- 
muestra que reduce el tiempo de recuperación del pulso. 


Se está probando un nuevo programa de control de calidad 
para ver si reducirá la proporción de piezas enviadas defec- 
tuosas. Con el antiguo programa, la proporción de piezas 
defectuosas era de 0.10. Se probarán 200 piezas que supe- 
raron la inspección bajo el nuevo programa, y se contará el 
número de defectos. Se instrumentará el nuevo programa si 
se muestra que la proporción de defectos es menor que 0.10. 


Se está probando un nuevo material, que se usará en la fa- 
bricación de un conducto eléctrico, para determinar si redu- 
ce la varianza en la fuerza de compresión sobre el viejo 
material. La fuerza de compresión se mide para una mues- 


entre Xz, y Yz, será de 0.8, lo que significa que valores 
grandes de X;, tienden a estar apareados con valores gran- 
des de Y; y viceversa. Calcule los estadísticos de prue- 
ba y estime la potencia de ambas pruebas, como en el 
inciso a). ¿Qué prueba tiene una potencia mayor? 


tra de 16 conductos del material viejo y una muestra de 20 
del nuevo. Si se demuestra que la fuerza compresiva con el 
material nuevo tiene una varianza menor, se usará el nuevo ma- 
terial. 


Suponga que ha comprado una máquina de llenado para 
bolsas de dulces que contendrá 16 oz de éstos. Suponga que 
los pesos de las bolsas llenas están aproximadamente distri- 
buidos en forma normal. Una muestra aleatoria de diez bol- 
sas produce los siguientes datos (en 0z): 


15.87 
16.04 


16.02 
15.81 


15.78 
15.92 


15.83 
16.10 


15.69 15.81 


Con base en estos datos, ¿puede concluir que la media del 
peso llenado es, en realidad, menor que 16 oz? 


a) Establezca las hipótesis nulas y alternativas adecuadas. 
b) Calcule el valor del estadístico de prueba. 


c) Determine el P-valor y establezca su conclusión. 


¿Las respuestas clave para pruebas de elección múltiple se 
generan aleatoriamente, o se construyen para que sea menos 
probable que ocurran dos veces consecutivas para la misma 
respuesta? En el artículo “Seek Whence: Answer Sequences 
and Their Consequences in Key-Balanced Multiple-Choice 
Tests” (M. Bar-Hillel y Y. Attali, The American Statistician, 
2002:299-303) se formuló tal pregunta. Se estudiaron 1 280 
preguntas de diez verdaderas pruebas escolares (PE). Su- 
ponga que todas las preguntas tenían cinco opciones (en 
efecto, 150 de ellas tenían sólo cuatro opciones). Encontra- 
ron que para 192 preguntas, la opción correcta (A, B, C, D 
o E) era la misma que la elección correcta para la pregunta 
anterior. Si las opciones fueran generadas aleatoriamente, 
entonces la probabilidad de que una pregunta tuviera la mis- 
ma opción correcta que la anterior sería de 0.20. ¿Puede 
concluir que las elecciones para las PE no se pueden gene- 
rar de manera aleatoria? 


10. 


a) Establezca las hipótesis nula y alternativa adecuadas. 
b) Calcule el valor del estadístico de prueba. 


c) Determine el P-valor y establezca su conclusión. 


Un fabricante de automóviles desea comparar las duracio- 
nes de dos marcas de neumáticos. Obtiene muestras de seis 
llantas de cada marca. En cada uno de seis automóviles ins- 
tala un neumático de cada marca sobre cada rueda del fren- 
te. Los carros se conducen hasta que quede solamente 20% 
de las huellas originales. Las distancias, en millas, para ca- 
da neumático se presentan en la tabla siguiente. ¿Puede 
concluir que hay una diferencia entre la media de las dura- 
ciones de las dos marcas de neumáticos? 


Automóvil Marca 1 Marca 2 
1 36 925 34 318 
2 45 300 42 280 
3 36 240 35 500 
4 32 100 31 950 
5 37210 38 015 
6 48 360 47 800 
J 38 200 33 215 


a) Establezca las hipótesis nula y alternativa adecuadas. 
b) Calcule el valor del estadístico de prueba. 


c) Determine el P-valor y establezca su conclusión. 


Se tomaron 21 mediciones independientes de la dureza (en 
la escala C de Rockwell) de metal de base de acero HSLA- 
100, y se hicieron otras 21 mediciones independientes de la 
dureza de una soldadura producida sobre este metal básico. 
La desviación estándar de las mediciones hechas sobre el 
metal básico era de 3.06, y la estándar de las mediciones he- 
chas sobre la soldadura era de 1.41. Suponga que las medicio- 
nes son muestras aleatorias independientes de poblaciones 
normales. ¿Puede concluir que las mediciones hechas sobre 
el metal básico son más variables que las mediciones reali- 
zadas sobre la soldadura? 


Existe la preocupación de que al aumentar la industrializa- 
ción se incremente el contenido de minerales en el agua de 
los ríos. Hace diez años, el contenido de silicio en el agua 
de cierto río era de 5 mg/l. Recientemente se tomaron 85 
muestras de agua del río que tienen una media de conteni- 
do de silicio de 5.6 mg/l y desviación estándar de 1.2 mg/l. 
¿Puede concluir que el contenido de silicio del agua es ma- 
yor hoy que lo que era hace diez años? 


El artículo “Modeling of Urban Area Stop-and-Go Traffic 
Noise” (P. Pamanikabud y C. Tharasawatipipat, en Journal 


11. 


12. 


Ejercicios adicionales para el capítulo 6 471 


of Transportation Engineering 1999:152-159) presenta las 
mediciones del ruido de tránsito, en dBA, de diez lugares en 
Bangkok, Tailandia. En la siguiente tabla se presentan me- 
diciones, realizadas en cada lugar, tanto en carriles acelera- 
dos como desacelerados. 


Lugar Acelerados  Desacelerados 
1 78.1 78.6 
2 78.1 80.0 
3 79.6 79.3 
4 81.0 79.1 
ES] 787 78.2 
6 78.1 78.0 
El 78.6 78.6 
8 78.5 78.8 
9 78.4 78.0 

10 79.6 78.4 


¿Puede concluir que hay una diferencia en la media de los ni- 
veles de ruido entre los carriles acelerados y desacelerados? 


Una máquina se configura para producir válvulas cuyas lon- 
gitudes tengan una media de 100 mm y desviación estándar 
de 0.1 mm. La máquina se traslada a otra ubicación. Se pen- 
saba que el cambio podría haber afectado la calibración para 
la media de la longitud, pero que es improbable que cambie la 
desviación estándar. Sea uu la media de la longitud de vál- 
vulas producidas después del cambio. Para probar la cali- 
bración se rectifica una muestra de 100 válvulas, se medirán 
sus longitudes, y se hará una prueba de las hipótesis Ap: u = 
100 contra HA;: y + 100. 


a) Determine la región de rechazo si la prueba es hecha en 
un nivel de 5%. 


b) Determine la región de rechazo si la prueba es hecha en 
un nivel de 10%. 


c) Si la media muestral de longitudes es 99.97 mm, ¿A se- 
rá rechazada a un nivel de 5%? 


d) Si la media muestral de longitudes es 100.01 mm, ¿Ho 
será rechazado a un nivel de 10%? 


e) Un punto crítico es 100.015 mm. ¿Cuál es el nivel de la 
prueba? 


Se supone que se calibra un proceso de fabricación de ho- 
jas de vidrio con el propósito de que la media yu de los es- 
pesores de las hojas sea de más de 4 mm. La desviación 
estándar de los espesores de las hojas está bien aproximada 
mediante dr = 0.20 mm. Se medirán los espesores de cada 
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hoja en una muestra, y se realizará una prueba de hipótesis 
Hoy: p< 4 contra H¡: q > 4. Suponga que, efectivamente, 
la media verdadera del espesor es 4.04 mm. 


a) Si se muestran 100 láminas, ¿cuál es la potencia de una 
prueba hecha a un nivel de 5%? 


b) ¿Cuántas láminas se deben probar con el propósito de que 
una prueba al nivel de 5% tenga una potencia de 0.95? 


c) Se prueban 100 láminas, ¿en qué nivel se debe hacer la 
prueba con el propósito de que la potencia sea de 0.90? 


d) Si se probaron 100 láminas, y la región de rechazo es X 
= 4.02, ¿cuál es la potencia de la prueba? 


Una máquina fabrica pernos que, se supone, son de tres pul- 
gadas de longitud. A diario un ingeniero responsable del 
control de calidad selecciona una muestra aleatoria de 50 
pernos de la producción del día, mide sus longitudes y rea- 
liza una prueba de hipótesis de H¿: 4 = 3 contra Hp: q + 3, 
donde y significa la media de la longitud de todos los per- 
nos fabricados ese día. Suponga que la desviación estándar 
poblacional para las longitudes de los pernos es de 0.1 pulg. 
Si A, es rechazada a un nivel de 5%, la máquina se deten- 
drá y se recalibrará. 


a) Suponga que en un día específico, la media verdadera de 
la longitud de pernos es 3 pulg. ¿Cuál es la probabilidad 
de que la máquina se detenga? (Esto último se llama ta- 
sa de falsa alarma.) 


b) Si la media verdadera de la longitud de los pernos en un 
día determinado es 3.01 pulgadas, determine la probabi- 
lidad de que el equipo será recalibrado. 


Se montan motores eléctricos sobre cuatro diferentes líneas 
de producción. Se toman muestras aleatorias de los motores de 
cada línea y se inspeccionan. Los grupos que pasan y que re- 
prueban la inspección se cuentan en cada línea, con los si- 
guientes resultados: 


Línea 
1 2 3 4 
Pasa 482 467 458 404 
Reprueba 57 59 37 47 


¿Puede concluir que la tasa de reprobación es diferente en- 
tre las cuatro líneas? 


Con referencia al ejercicio 14, la ingeniera de proceso ob- 
serva que la muestra de la línea 3 tiene la proporción más 
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baja de fallas. Utilice el ajuste de Bonferroni para determi- 
nar si puede concluir que la proporción de fallas de la po- 
blación en la línea 3 es menor que 0.10. 


Los ejercicios 16 y 17 muestran que los métodos de distri- 
bución libre pueden producir resultados engañosos cuando 
sus suposiciones se incumplen seriamente. 


Considere las siguientes dos muestras: 


X: 0 2 3 4 10 
Y: —738 


20 40 1001000 
162 222 242 252 258 259 260 262 


a) Muestre que ambas muestras tienen la misma media y 
varianza. 


b) Utilice la prueba de la suma del rango de Wilcoxon pa- 
ra probar la hipótesis de que las medias poblacionales 
son iguales, ¿qué concluye? 


c) ¿Parece que las suposiciones de la prueba de la suma del 
rango se satisfacen? Explique por qué sí o no. 


A veces se piensa en la prueba de la suma del rango como 
una prueba para las medianas de población. Bajo las supo- 
siciones de igual extensión y forma, las medias de las dos 
poblaciones son diferentes si y sólo si las medianas son di- 
ferentes; por tanto, probar la igualdad de medias poblacio- 
nales son también pruebas para la igualdad de las medianas 
poblacionales. Este ejercicio muestra que cuando estas su- 
posiciones se incumplen seriamente la prueba de la suma 
del rango puede dar resultados falsos con respecto a la 
igualdad de las medianas poblacionales. Considere las si- 
guientes dos muestras: 


Xx: 1 2 E 4 Sl 6 7 

20 40 50 60 70 80 90 100 
Y: 10 9 8 7 6 3) 4 

20 21 22 23 24 25 26 27 


a) Compruebe que ambas muestras tienen la misma me- 
diana. 


b) Calcule el P-valor para una prueba de la suma del rango 
de dos colas. Si P-valores pequeños proporcionan evi- 
dencia contra la hipótesis nula de que las medianas po- 
blacionales son iguales, ¿concluiría que las medianas 
poblacionales son diferentes? 


c) ¿Las suposiciones de la prueba de la suma del rango pa- 
recen satisfacerse? Explique por qué sí o no. 


Se está considerando un nuevo proceso de producción para 
la fabricación de cojinetes de acero inoxidables. Medicio- 
nes de los diámetros de muestras aleatorias de cojinetes de 
viejos y nuevos procesos produjeron los siguientes datos: 


19. 


20. 


Viejo: 16.3 15.9 15.8 16.2 16.1 16.0 
15.7 15.8 15.9 16.1 16.3 16.1 
15.8 15.7 15.8 15.7 

Nuevo: 15.9 16.2 16.0 15.8 16.1 16.1 
158 16.0 16.2 15.9 15.7 16.2 
158 15.8 16.2 16.3 


a) ¿Puede concluir que en un nivel de 5% que un proceso 
produce una media de los tamaños de los cojinetes dife- 
rente de la otra? 


b) ¿Puede concluir que en un nivel de 5% la varianza del 
nuevo procedimiento es menor que con el procedimien- 
to antiguo? 


Se consideran dos formulaciones químicas diferentes de 
combustible de cohete para el empuje pico que se proporcio- 
na a un diseño particular de un motor de cohete. Los cocien- 
tes empuje/peso (en kilogramos fuerza por gramo) para cada 
uno de los dos combustibles se miden varias veces. Los re- 
sultados son los siguientes: 


Combustible A: 54.3 52.9 57.9 58.2 53.4 51.4 
56.8 55.9 57.9 56.8 58.4 52.9 
55.5 513 51.8 53.3 

Combustible B: 55.1 55.5 53.1 50.5 49.7 50.1 
524 544 54.1 55.6 56.1 54.8 
48.4 48.3 55.5 54.7 


a) Suponga que la planta de procesamiento de combustible 
está configurada para producir combustible B y los cos- 
tos de cambio son altos. Debido a que el aumento del 
cociente empuje/peso para el combustible cohete es be- 
néfico, ¿cómo se deben establecer las hipótesis nula y 
alternativa para una prueba útil para la decisión de cam- 
biar al combustible A? 


b) ¿Puede concluir a un nivel de 5% que se debe cambiar 
al combustible A? 


Suponga que la Agencia de Protección al Ambiente está en 
el proceso de dar seguimiento a la calidad del agua, en un 
estuario grande en el este de Estados Unidos, con la finali- 
dad de medir la concentración de PCB (en partes por miles 
de millones). 


a) Suponga que una muestra aleatoria de tamaño 80 tiene 
una media muestral de 1.59 ppmm y una desviación es- 
tándar muestral de 0.25 ppmm. Pruebe la hipótesis, a un 
nivel de 5%, de que la media de la concentración de 
PCB en el estuario es menor o igual a 1.50 ppmm con- 
tra la alternativa que es mayor. ¿HA se rechaza? 


21. 


22. 


23. 


Ejercicios adicionales para el capítulo 6 473 


b) Si la media poblacional es 1.6 ppmm y la desviación es- 
tándar poblacional es 0.33 ppmm, ¿cuál es la probabili- 
dad de que la hipótesis nula Ay: p < 1.50 sea rechazada 
a un nivel de 5%, si el tamaño de muestra es 80? 


c) Si la media de población es 1.6 ppmm, y la desviación 
estándar poblacional, 0.33 ppmm, ¿qué tamaño muestral 
es necesario con el propósito de que la probabilidad de 
0.99 de que Ap: q <= 1.50 sea rechazada a un nivel de 5%? 


Dos máquinas se utilizan para empacar detergente de lavan- 
dería. Se sabe que los pesos de las cajas están normalmen- 
te distribuidos. Cuatro cajas de cada máquina tienen sus 
contenidos cuidadosamente pesados, con los siguientes re- 
sultados (en gramos): 


1152 
1756 


1757 
1750 


1751 
1752 


1754 
1746 


Máquina 1: 
Máquina 2: 


Un ingeniero desea para probar la hipótesis nula de que las 
medias de los pesos de las cajas de las dos máquinas son igua- 
les. Decide suponer que las varianzas poblacionales son iguales, 
el razonamiento es el siguiente: 


Las varianzas muestrales son sí = 7.00 para la máquina 
número 1 y s = 17.33 para la máquina número 2. El es- 
tadístico F para probar la igualdad de las varianzas po- 
blacionales es F33 = 53/51 = 2.48. El punto 10% 
superior de la distribución Fz 3 es 5.39. Debido a que la 
hipótesis nula especifica que las varianzas son iguales, Í 
determina que el P-valor es mayor que 2(0.10) = 0.20. 
Por tanto, I no rechaza la hipótesis nula, y 1 concluye 
que las varianzas son iguales. 


a) ¿La prueba F se ha hecho correctamente? 


b) ¿La conclusión está justificada? Explique. 


El artículo “Valuing Watershed Quality Improvements 
Using Conjoint Analysis” (S. Farber y B. Griner, en Ecolo- 
gical Economics, 2000:63-76) presenta los resultados de 
una encuesta de correo diseñada para evaluar opiniones 
acerca del valor de los esfuerzos para mejorar en una línea 
divisoria degradada de mina de ácido en el occidente de 
Pensilvania. De 510 personas encuestadas, 347 era hom- 
bres. Los datos del censo muestran que 48% de la población 
objetivo son hombres. ¿Puede concluir que el método de la 
encuesta empleado en este estudio tiende a sobremuestrear 
a los hombres? Explique. 


Los antropólogos pueden calcular la tasa de natalidad de 
una antigua civilización estudiando la distribución de edad 
de los esqueletos encontrados en cementerios. Los números 
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de esqueletos descubiertos en dos de esos sitios, como in- 
forma el artículo “Paleoanthropological Traces of a Neolithic 
Demographic Transition” (J. Bocquet-Appel, en Current 
Anthropology, 2002:637-650), se muestran en la tabla si- 
guiente: 


Edad de los esqueletos 


0-4 5-19 20 años 
Sitio años años o más 
Casa de Moura 27 61 126 
Wandersleben 38 60 118 


¿Estos datos dan evidencias convincentes de que las distri- 
buciones de edad son diferentes entre los dos sitios? 


La deforestación es un problema serio en gran parte de In- 
dia. El artículo “Factors Influencing Peoples Participation 
in Forest Management in India” (W. Lise, en Ecological 
Economics, 2000:379-392) analiza las fuerzas sociales que 
influyen en la dirección de las políticas del bosque en tres 


estados federales indios: Haryana, Bihar y Uttar Pradesh. 
La calidad de bosque en Haryana está un poco degradada, 
en Bihar está muy degradada y en Uttar Pradesh está bien 
conservada. Con el fin de estudiar la relación entre los nive- 
les educacionales y las actitudes hacia la adminstración del 
bosque, se examinaron muestras aleatorias de adultos en ca- 
da uno de estos estados federales y se investigaron sus nive- 
les de educación. Se registraron los números de adultos en 
cada uno de algunos niveles educativos. Los datos se pre- 
sentan en la siguiente tabla. 


Años de educación 


Estado O 1-4 5-6 7-9 10-11 120 

más 
Haryana 48 6 16 26 24 7 
Bihar 34 24 7 32 16 10 


Uttar Pradesh 20 9 25 30 17 34 


¿Puede concluir que los niveles educativos son diferentes 
entre los tres estados? Explique. 


Capítulo 


Correlación 
y regresión lineal 
simple 


Introducción 


Con frecuencia, científicos e ingenieros reúnen datos con el propósito de determinar la natu- 
raleza de la relación entre dos cantidades. Por ejemplo, un ingeniero químico puede realizar 
varias veces un proceso químico para estudiar la relación entre la concentración de cierto ca- 
talizador y la producción del proceso. Cada vez que realiza éste, registra la concentración x y 
la producción y. Por consiguiente, el experimento genera datos bivariados; un conjunto de 
pares ordenados (x¡, y1), . . - » (X,, yn). En muchos casos, al graficar los pares ordenados que 
se generan en un experimento científico se encontrarán, aproximadamente, a lo largo de una 
línea recta. En estos casos, los datos son útiles para calcular la ecuación de una recta. Aqué- 
lla se puede utilizar con muchos propósitos; por ejemplo, el catalizador contra la producción 
del experimento que se acaba de describir, esto podría ser útil para pronosticar la producción y, 
que se obtendrá la próxima vez que se opere el proceso con una concentración específica de 
un catalizador x. 

Los métodos de correlación y la regresión lineal simple constituyen el tema de este ca- 
pítulo; ambos se utilizan para: analizar datos bivariados con la finalidad de determinar si un 
ajuste lineal es adecuado, calcular la ecuación de la recta si es adecuado, y usar esta ecuación 
con el fin de hacer inferencias respecto de la relación entre ambas cantidades. 


7.1 Correlación 


Una de las primeras aplicaciones de la estadística consistió en estudiar la variación de las ca- 
racterísticas físicas en poblaciones humanas. Con ese fin, los estadígrafos crearon una canti- 
dad llamada coeficiente de correlación como forma de describir la relación tan cercana entre 
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dos características físicas. El primer coeficiente de correlación publicado fue producto del tra- 
bajo de sir Francis Galton, quien, en 1888, midió la estatura y longitud del antebrazo, respec- 
tivamente, de 348 hombres adultos. (En realidad, midió la distancia del codo a la punta del 
dedo cordial, lo que se conocía como un cúbito.) Si se denota la estatura del ¡-ésimo hombre 
mediante x,, y la longitud de su antebrazo como y,, entonces los datos de Galton consistían de 
348 pares ordenados (x;, y;). La figura 7.1 presenta una recreación simulada de estos datos, 
con base en una tabla que construyó Galton. 


21 
20 
19 
18 


17 


Longitud del antebrazo (pulg) 


16 


] l 1 ! 
60 62 64 66 68 70 72 74 


15 ) ) 


Estatura (pulg) 


FIGURA 7.1 Estatura y longitud de los antebrazos de 348 hombres. 


Los puntos tienden a inclinarse hacia arriba y a la derecha, lo que indica que los hom- 
bres más altos tienden a tener antebrazos más largos. Se dice que hay una asociación positi- 
va entre la estatura y la longitud del antebrazo. La pendiente es casi constante en toda la 
gráfica, esto indica que los puntos están agrupados alrededor de una línea recta. La línea so- 
brepuesta sobre la gráfica representa una recta especial conocida como recta de mínimos cua- 
drados. Ésta es la que ajusta mejor tales datos, en el sentido que se describirá en la sección 
7.2. También ahí se aprenderá cómo calcular la recta de mínimos cuadrados. 

La figura 7.2 presenta los resultados de un estudio de la relación entre la media de la 
temperatura diaria y la media de la humedad diaria en un lugar cerca de Riverside, Califor- 
nia, durante el reciente invierno. Nuevamente los puntos están agrupados alrededor de la rec- 
ta de mínimos cuadrados. Esta última tiene una pendiente negativa, ello indica que los días 
con mayor humedad tienden a tener temperaturas más bajas. 

El grado en que los puntos en un diagrama similar tienden a agruparse alrededor de una 
recta refleja la fuerza de la relación lineal entre x y y. La impresión visual de una gráfica de 
puntos puede ser engañosa respecto de lo anterior, debido al cambio de escala de los ejes, lo 
que puede hacer que el agrupamiento parezca más junto o más disperso. En consecuencia, se 
define el coeficiente de correlación, que es una medida numérica de la fuerza de la relación 
lineal entre dos variables. Este coeficiente se denota con la literal r. 

Sean (x1, Y1), . - - » O, y) los n puntos del diagrama de dispersión. Para calcular la co- 
rrelación, primero se deducen las medias y las desviaciones estándar de las x y de las y, que 
se representan mediante x, y, s, y s, Después se convierte cada x y cada y a las unidades es- 
tándar; en otras palabras, se calculan los puntajes z: (x,—)/s,, (y; — Y)/s,. El coeficiente de co- 
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FIGURA 7.2 Humedad (en %) y temperatura (en *C) para los días de un invierno reciente en Riverside, 
California. 


rrelación representa el promedio de los productos de los puntajes z, excepto que se divide en- 


tre n — 1 en lugar de n: 
1 » X= E y—Y 
“ALE an 


Se puede reescribir la ecuación 7.1 en una forma que a veces es útil. Al sustituir s, con 


Vi ( —x)?/(M—1) y as, con Y) -101 — y)? /(1 — 1), se obtiene 


_ Na Ca — DOY) 
ADE” a YY Y 1 0 =P 


En principio, el coeficiente de correlación se puede calcular para cualquier conjunto de 
puntos. Éstos, en muchos casos, constituyen una muestra aleatoria de una población de pun- 
tos. En dichos casos el coeficiente de correlación con frecuencia se llama correlación mues- 
tral, y es una estimación de la correlación poblacional. (En la sección 2.6 se analizaron 
formalmente correlaciones poblacionales; en forma intuitiva, se supone que la población 
consta de un gran número finito de puntos; en esta tesitura, la correlación poblacional signi- 
fica la cantidad que se calcula mediante la ecuación 7.2 en toda una población, con las me- 
dias muestrales sustituidas por las medias poblacionales.) La correlación muestral es útil en 
la construcción de intervalos de confianza y la realización de pruebas de hipótesis acerca de la 
correlación poblacional; éstas se tratarán después en esta sección. Se puntualiza que el coefi- 
ciente de correlación también se puede utilizar para medir la fuerza de una relación lineal en 
muchos casos donde los puntos no son una muestra aleatoria de una población; en la sección 
7.2 se observa el análisis del coeficiente de determinación. 

Es un hecho matemático que el coeficiente de correlación se encuentra siempre entre 
—1 y 1. Valores positivos del coeficiente de correlación indican que la recta de mínimos cua- 
drados tiene pendiente positiva, ello significa que valores mayores de una variable están aso- 
ciados con valores mayores que los demás. Por el contrario, valores negativos del coeficiente 


r 


(7.2) 
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de correlación indican que la recta de mínimos cuadrados tiene pendiente negativa, lo ante- 
rior muestra que valores mayores de una variable están relacionados con valores menores que 
los demás. En este contexto, valores del coeficiente de correlación cercanos alo a —1 indi- 
can fuerte relación lineal; asimismo, valores cercanos a O indican débil relación lineal. El coe- 
ficiente de correlación es igual a 1 (o a —1) sólo cuando los puntos en el diagrama de 
dispersión están exactamente sobre una recta de pendiente positiva (o negativa); en otras pa- 
labras, cuando hay una relación lineal perfecta. Como nota técnica, tenemos que sí los pun- 
tos se hallan exactamente sobre una recta horizontal o vertical, el coeficiente de correlación 
está indeterminado, ya que una de las desviaciones estándar es igual a cero. Por último, un 
poco de terminología: siempre que r % O, se dice que x y y están correlacionados. Si r = 0, 
se dice que x y y no están correlacionados. 

La correlación entre estatura y longitud del antebrazo, en la figura 7.1, es 0.80. La que 
corresponde a temperatura y humedad en la figura 7.2 es —0.46. Las figuras 7.3 y 7.4 de las 
páginas 479 y 480 muestran algunos ejemplos de gráficas de dispersión con diferentes corre- 
laciones. En cada gráfica tanto x como y tienen media O, y desviación estándar 1. Todas las 
gráficas están dibujadas en la misma escala. 


Cómo funciona el coeficiente de correlación 


¿Por qué la fórmula (ecuación 7.1) para el coeficiente de correlación r mide la fuerza de aso- 
ciación lineal entre dos variables? La figura 7.5 de la página 481 muestra cómo funciona el 
coeficiente de correlación. En este diagrama de puntos, el origen está colocado en el punto de 
los promedios (x, y). Por tanto, en el primer cuadrante, los puntajes z (x, — )/s, y (y; — Ys, 
son positivos, por lo que su producto también lo es. Por consiguiente, cada punto en el primer 
cuadrante aporta una cantidad positiva a la suma de la ecuación (7.1). En el segundo cuadran- 
te los puntajes z para las coordenadas x de los puntos son negativos, mientras que los z para 
las coordenadas y, positivos. En consecuencia, los productos de los puntajes z son negativos, 
por lo que cada punto en el segundo cuadrante aporta una cantidad negativa a la suma de la 
ecuación (7.1). De forma semejante, los puntos en el tercer cuadrante aportan cantidades po- 
sitivas, y los del cuarto cuadrante, cantidades negativas. Evidentemente, en la figura 7.5 hay 
más puntos en el primero y tercer cuadrantes que en el segundo y cuarto, así la correlación 
será positiva. Si la gráfica tuviera una pendiente negativa, habría más puntos en el segundo y 
cuarto cuadrantes, y el coeficiente de correlación sería negativo. 


El coeficiente de correlación es un número puro 


En cualquier muestra x;, . . ., Xx, la media x y la desviación estándar s, tienen las mismas uni- 
dades que x;, ... . , X,. Por esta razón los puntajes z (x, — X)/s5, son números puros. Puesto que 
el coeficiente de correlación r constituye el promedio de productos de puntajes z, también es un 
número puro, sin unidades. Este hecho es crucial para la utilidad de r. Por ejemplo, las unida- 
des para las coordenadas x y y en la figura 7.1 son para ambas pulgadas, mientras que las uni- 
dades correspondientes en la figura 7.2 son porcentajes y grados Celsius. Si los coeficientes de 
correlación para las dos gráficas tuvieran unidades diferentes, sería imposible comparar sus va- 
lores para determinar la gráfica que presenta la relación lineal más fuerte. Pero debido a que los 
coeficientes de correlación son números puros, son directamente comparables; se concluye que 
la relación entre la estatura de los hombres y la longitud de su antebrazo en la figura 7.1 es li- 
nealmente más fuerte que la relación entre la temperatura y la humedad de la figura 7.2. 


El coeficiente de correlación es 0.00 
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El coeficiente de correlación es 0.30 
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FIGURA 7.3 Ejemplos de diferentes niveles de correlación positiva. 
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El coeficiente de correlación es 0.20 


El coeficiente de correlación es —0.40 
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FIGURA 7.4 Ejemplos de diferentes niveles de correlación negativa. 
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el puntaje z para x es — el puntaje z para xes + 
el puntaje z para y es + el puntaje z para y es + 
El producto es — . El producto es + 


s .. 

el puntaje z para xes — el puntaje z para xes + 

el puntaje z para y es — el puntaje z para y es — 
El producto es + El producto es — 


FIGURA 7.5 Cómo funciona el coeficiente de correlación. 


Otra importante propiedad del coeficiente de correlación es que no lo afectan las uni- 
dades con las que se hacen las mediciones. Por ejemplo, imagine que en la figura 7.1 las es- 
taturas de los hombres se midieron en centímetros en lugar de pulgadas. Entonces cada x; 
estaría multiplicada por 2.54. Pero esto ocasionaría que x y s, también estén multiplicadas por 
2.54, por lo que los puntajes z (x¡ — x)/s, permanecerían constantes, por lo que r permanece 
igual. En un ejemplo más extravagante, imagine que cada hombre estaba sobre una platafor- 
ma de dos pulgadas mientras se medía su estatura. Esto aumentaría cada x, en 2, pero el de 
valor de x también habría aumentado en 2. Por tanto, los puntajes z no cambiarían, y el coe- 
ficiente de correlación también permanecería constante. Por último, imagine que se intercam- 
bian los valores de x y y, usando a x para denotar las longitudes de antebrazo, y que y denote 
las estaturas. Dado que el coeficiente de correlación se determina mediante el producto de los 
puntajes z, no importa cuál variable se representaba por medio de x y cuál por y. 


El coeficiente de correlación permanece constante en cada una de las siguientes 
Operaciones: 


E Multiplicar cada valor de una variable por una constante positiva. 
E Sumar una constante a cada valor de una variable. 


E Intercambiar los valores de x y y. 


La figura 7.6 de la página 482 presenta gráficas de las medias de temperatura durante 
abril y octubre para varias ciudades de Estados Unidos. Ya sea que las temperaturas se midan 
en *C o en %F, la correlación es la misma. Esto último se debe a que convertir de *C a “F im- 
plica multiplicar por 1.8 y sumar 32. 
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FIGURA 7.6 Medias de las temperaturas de abril y octubre para algunas ciudades de 
Estados Unidos. El coeficiente de correlación es 0.96 para cada figura; no importan las 
unidades elegidas. 


El coeficiente de correlación mide sólo la asociación lineal 


Un objeto se dispara hacia arriba desde el suelo con una velocidad inicial de 64 pies/s. Para 


cada uno de los tiempos xy, . . . , Xx, se miden las alturas y;, .. ., y, desde la superficie de la 
tierra. En ausencia de fricción, y suponiendo que no hay error de medición, el diagrama de 
dispersión de los puntos (x;, y1), . . - , (X,, y,) se parecerá a la figura 7.7. Obviamente existe 


una fuerte relación entre x y y; en efecto, el valor de y se determina mediante x a través de la 
función y = 64x — 16x”. Todavía la correlación entre x y y es igual a O. ¿Algo está equivoca- 
do? No. El valor de O para la correlación indica que no hay ninguna relación lineal entre x y 
y, lo que es verdadero. La relación es puramente cuadrática. La lección de este ejemplo es 
que el coeficiente de correlación se debe utilizar sólo cuando la relación entre x y y es lineal. 
De otra manera los resultados pueden ser engañosos. 


Datos atípicos 


En la figura 7.8 el punto (0, 3) es un dato atípico porque está apartado del cuerpo principal de 
datos. La correlación para este diagrama de dispersión es r = 0.26, lo que indica una relación 
lineal débil. Aun así, diez de los 11 puntos tienen una relación lineal perfecta. Los datos atí- 
picos pueden distorsionar el coeficiente de correlación enormemente, en especial con conjun- 
tos pequeños de datos, y presentan un serio problema para los analistas de datos. Algunos 
datos atípicos los ocasionan errores en el registro de datos o fallas en la secuencia del proto- 
colo experimental. Estos datos atípicos se pueden corregir o eliminar adecuadamente. A ve- 
ces las personas eliminan los datos atípicos de una gráfica sin justificación, para darle una 
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FIGURA 7.7 La relación entre la altura de un objeto en caída libre con una velocidad po- 
sitiva inicial y el tiempo de caída libre es cuadrático. La correlación es igual a 0. 


apariencia más agradable. Esto no es adecuado, ya que es resultado de una subestimación de 
la variabilidad del proceso que generó los datos. Interpretar los datos que contienen datos atí- 
picos puede ser difícil, porque hay pocas reglas fáciles de seguir. 


FIGURA 7.8 La correlación es 0.26. Debido a los datos atípicos el coeficiente de correla- 
ción es engañoso. 


La correlación no es causalidad 


En los niños, lo extenso de su vocabulario está fuertemente correlacionado con el tamaño de 
su zapato. Sin embargo, aprender nuevas palabras no ocasiona que sus pies crezcan, como 
tampoco pies en crecimiento significa que su vocabulario aumente. Hay un tercer factor, en 
concreto la edad, que está correlacionada tanto con el tamaño del zapato como con el voca- 
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bulario. Niños de mayor edad tienden a tener tanto mayor tamaño de zapato como vocabula- 
rios más extensos, y esto último propicia una correlación positiva entre el vocabulario y el ta- 
maño del zapato. Este fenómeno se conoce como confusión. La confusión ocurre cuando hay 
una tercera variable correlacionada con las dos variables de interés, lo que da como resultado 
una correlación entre ambas. 

Repitiendo este ejemplo con más detalle: las personas con mayor edad tienden a tener 
un tamaño de zapato más grande. Las personas de mayor edad también tienden a tener voca- 
bularios más extensos. Se tiene que personas con tamaño de zapato más grande tenderán a te- 
ner vocabularios más variados. En otras palabras, dado que tanto el tamaño de zapato como 
el vocabulario están correlacionados con la edad, su correlación es positiva. 

En este ejemplo la confusión se descubrió con facilidad. En muchos casos no es tan fá- 
cil. El ejemplo muestra que el solo hecho de que dos variables estén correlacionadas entre sí 
no permite suponer que el cambio en una tenderá a ocasionar un cambio en la otra. Antes de 
que se concluya que las dos variables tienen una relación causal se debe descartar la posibi- 
lidad de confusión. 

A veces se puede utilizar la regresión múltiple (véase el capítulo 8) para detectar con- 
fusión. Algunas veces los experimentos se pueden diseñar para reducir la posibilidad de confu- 
sión. El tema del diseño experimental (véase el capítulo 9) está muy relacionado con este 
tema. He aquí un ejemplo simple. 


Una científica ecologista estudia la tasa de absorción de cierto compuesto químico sobre la 
piel. Coloca volúmenes diferentes del compuesto químico sobre diferente segmentos de piel 
y permite que ésta permanezca en contacto con el compuesto químico durante diferentes lap- 
sos. Ella entonces mide el volumen del compuesto químico absorbido en cada segmento de 
piel. Obtiene los resultados que se muestran en la tabla siguiente. 


Volumen (mL) Tiempo (h) Porcentaje absorbido 
0.05 2 48.3 
0.05 2 51.0 
0.05 z 54.7 
2.00 10 63.2 
2.00 10 67.8 
2.00 10 66.2 
5.00 24 83.6 
5.00 24 85.1 
5.00 24 87.8 


La científica grafica el porcentaje absorbido contra el volumen y el tiempo, como se 
muestra en la siguiente figura. Calcula la correlación entre el volumen y la absorción y obtie- 
ne r = 0.988. Concluye que aumentar el volumen del compuesto químico ocasiona el incre- 
mento de los porcentajes de absorción. Después calcula la correlación entre el tiempo y la 
absorción, por lo que obtiene r = 0.987. Concluye que al aumentar el tiempo que la piel es- 
tá en contacto con el compuesto químico ocasiona también que los porcentajes de absorción 
aumenten. ¿Estas conclusiones están justificadas? 
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Solución 

No. La científica debe observar la gráfica tiempo contra volumen que se presenta en la si- 
guiente figura. La correlación entre el tiempo y el volumen es r = 0.999, por lo que estas dos 
variables están casi completamente confundidas. Si el tiempo o el volumen afecta los porcen- 
tajes de absorción, pareciese que ambos lo hacen porque están muy correlacionados entre sí. 
En consecuencia, es imposible determinar si es el tiempo o el volumen el que está teniendo 
un efecto. Esta relación entre tiempo y volumen resulta del diseño experimental y se debió 
haber evitado. 


Tiempo (h) 


ol 1 1 1 
0 1 2 3 4 5 


Volumen (ml) 


Ejemplo 


La científica del ejemplo 7.1 ha repetido el experimento, esta vez con un nuevo diseño. Los 
resultados se presentan en la tabla siguiente. 
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Volumen (mL) Tiempo (h) Porcentaje absorbido 
0.05 2 49.2 
0.05 10 SL.0: 
0.05 24 84.3 
2.00 2 54.1 
2.00 10 68.7 
2.00 24 87.2 
5.00 2 47.7 
5.00 10 65.1 
5.00 24 88.4 


La científica grafica el porcentaje absorbido tanto contra el volumen como contra el 
tiempo, como se muestra en la siguiente figura. 
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Después calcula la correlación entre el volumen y la absorción y obtiene r = 0.121. Conclu- 
ye que aumentar el volumen del compuesto químico tiene poco o ningún efecto en los por- 
centajes de absorción. Después calcula la correlación entre el tiempo y la absorción y obtiene 
r = 0.952. Determina que al aumentar el tiempo que el compuesto químico está en contacto 
con la piel causará que los porcentajes de absorción aumenten. ¿Estas conclusiones están jus- 
tificadas? 


Solución 

Estas conclusiones están mucho mejor justificadas que las del ejemplo 7.1. Se verá por qué. 
Observe la gráfica de tiempo contra volumen de la siguiente figura. Este experimento ha sido 
diseñado con el propósito de que el tiempo y el volumen no estén correlacionados. Ahora pa- 
rece que el tiempo, pero no el volumen, tiene efecto en los porcentajes de absorción. Antes de 
establecer la conclusión final de que el aumento del tiempo realmente ocasiona que el porcen- 
taje absorbido aumente, la científica debe asegurarse de que no haya algunas otras confusiones 
potenciales por ahí. Por ejemplo, si la temperatura ambiental varió con cada reproducción del 
experimento, y si estaba muy correlacionada con el tiempo, entonces podría darse el caso de 
que la temperatura, más que el tiempo, estaba ocasionando la variación de los porcentajes 
de absorción. 
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Inferencia sobre la correlación poblacional 


En lo que resta de esta sección se utilizarán algunas ideas de la sección 2.6. Cuando los pun- 
tos (x;, y¡) son una muestra aleatoria de una población de pares ordenados, entonces cada pun- 
to se puede considerar como observación de un par ordenado de variables aleatorias (X, Y). El 
coeficiente de correlación, o correlación muestral, r es entonces una estimación de la correla- 
ción poblacional, py y. 

Si las variables aleatorias X y Y tienen cierta distribución conjunta llamada distribución 
normal bivariada, entonces la correlación muestral r se puede utilizar para construir inter- 
valos de confianza y realizar pruebas de hipótesis sobre la correlación poblacional. En la prác- 
tica, si X y Y están distribuidas normalmente, entonces hay una certeza virtual de que tanto X 
como Y tengan una distribución normal bivariada, por lo que los intervalos de confianza y las 
pruebas descritas después serán válidas. (Mientras que es matemáticamente posible construir 
dos variables aleatorias normales que no una normal bivariada de manera conjunta, las con- 
diciones en las que esto último ocurre no son visibles en la práctica.) 

Los intervalos de confianza, y la mayoría de las pruebas, sobre px y están basados en el 
resultado siguiente: 


Sean X y Y variables aleatorias con distribución normal bivariada. 

Sea p la correlación de población entre X y Y. 

Sea (x1, Y1), - . - > (%,, y,) una muestra aleatoria de la distribución conjunta de X y Y. 
Sea r la correlación muestral de los n puntos. 

Entonces la cantidad 


e (7.3) 
2 e 
está casi normalmente distribuida, con la media dada por 
A (7.4) 
2 = Pp 
y varianza dada por 
Ty = . (7.5) 
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Observe que uyy es una función de la correlación poblacional p. La construcción de interva- 
los de confianza requerirá despejar p de la ecuación (7.4). Se obtiene 
2, 
ev — 1 


ES 7.6 
ee + 1 0 


p= 


En un estudio de los tiempos de reacción, el tiempo de respuesta a un estímulo visual (x) y el 
tiempo de respuesta a un estímulo auditivo (y) se registraron para cada una de diez personas. 
Los tiempos se midieron en m. En la tabla siguiente se presentan los resultados. 


x 161 203 235 176 201 188 228 211 191 178 
y 159 206 241 163 197 193 209 189 169 201 


Determine un intervalo de confianza de 95% para la correlación entre los dos tiempos de reac- 
ción. 
Solución 


Usando la ecuación (7.1) se calcula la correlación muestral, se obtiene r = 0.8159. Después 
se utiliza la ecuación (7.3) para calcular la cantidad W: 


1 + 
In E 


1 
1 l-r5r 


1, 1403159 
2 1-0.8159 


= 1.1444 


Dado que W está distribuida normalmente con desviación estándar a = V1/(10—3) = 
0.3780 (ecuación 7.5), un intervalo de confianza de 95% para Uy, está dado por 


1.1444 — 1.96(0.3780) < uy < 1.1444 + 1.96(0.3780) 
0.4036 < uy < 1.8852 


Para obtener un intervalo de confianza de 95% para p se transforma la desigualdad mediante 
la ecuación (7.6), por lo que se obtiene 


¿20-4036) _ 7 2uw 1 ¿218852 _ 1 


e 
Sima TT < —T———— < => us» — 
204035, 1 TN 213852) y 1 


0.383 < p < 0.955 


Para probar hipótesis nulas de la forma p = po, Pp E Po Y P = Po, donde py es una cons- 
tante que no es igual a 0, la cantidad W es la base de una prueba. A continuación se presenta 
un ejemplo. 
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Con referencia al ejemplo 7.3, determine el P-valor para probar H, : p < 0.3 contra HA, : p > 0.3. 


Solución 
Bajo H, se tiene que p = 0.3, por lo que, al usar la ecuación (7.4), 


= 0.3095 


La desviación estándar de Wes a = y1/(10 — 3) = 0.3780. Por lo que bajo H,, W - N(0.3095, 
0.37807). El valor observado de Wes W = 1.1444. El puntaje z es, por tanto, 


1.1444 — 0.3095 
e 0.3780 ze 


El P-valor es 0.0136. Se concluye que p > 0.3. 


Para la prueba de hipótesis nula de la forma p = 0, p S 0, p = O está disponible un pro- 
cedimiento parecido. Cuando p = O, la cantidad 


ryvn—2 
VT=r? 


tiene la distribución £ de Student con n — 2 grados de libertad. El ejemplo 7.5 muestra cómo 
utilizar U como un estadístico de prueba. 


U = 


Con referencia al ejemplo 7.3, pruebe la hipótesis H, : p E 0 contra H, : p > 0. 


Solución 
Bajo A, se tiene que p = 0, por lo que el estadístico de prueba U tiene la distribución t de 
Student con n — 2 = 8 grados de libertad. La correlación muestral es r = 0.8159, por lo que 
el valor de U es 
ryn—2 

U= ===, 
y1I=r? 
_ 0.8159/10— 2 
10.815 


= 3.991 


Al consultar la tabla £ de Student con ocho grados de libertad, se encuentra que el P-valor es- 
tá entre 0.001 y 0.005. Es seguro concluir que p > 0. 
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Ejercicios de la sección 7.1 


1. Calcule el coeficiente de correlación para el siguiente con- 
junto de datos. 


2. Para cada uno de los siguientes conjuntos de datos, explique 
por qué el coeficiente de correlación es el mismo que para c) 


1 conjunto de datos del ejercicio 1. 
dd ds SORA 4. Verdadero o falso, y explique brevemente: 


x 1 2 3 4 5 6 7 a) Si el coeficiente de correlación es positivo, entonces los 
a) y 5 4 7 6 10 8 9 valores arriba del promedio de una variable están aso- 
ciados con los valores superiores al promedio de la otra. 


b) Si el coeficiente de correlación es negativo, entonces los 


b) da mm ns A 2, A A valores debajo del promedio de una variable están aso- 
y 5 4 7 6 10 8 9 ciados con los valores debajo del promedio de la otra. 
c) Si y es usualmente menor que x, entonces la correlación 
x 53 43 73 63 103 83 93 entre y y x será negativa. 
e y 4 6 s 10 12 14 16 


5. Un investigador reunió datos acerca de las estaturas y los 
pesos de estudiantes universitarios. La correlación entre la 
estatura y el peso para hombres era de 0.6, y para mujeres 
era igual. Si los hombres y las mujeres se consideran en 
conjunto, la correlación entre la estatura y el peso ¿es ma- 
yor que 0.6, menor que 0.6, o casi igual a 0.6? Puede ser útil 
hacer un diagrama aproximado de dispersión. 


3. Establezca para cada una de las siguientes gráficas de dis- 
persión si el coeficiente de correlación es un resumen ade- 
cuado y explíquelo brevemente. 


6. En un estudio de movimientos de tierra ocasionados por sis- 
mos se registraron para cinco de éstos la velocidad máxima 
(en m/s) y la aceleración máxima (en m/s?). Los resultados 
se presentan en la tabla siguiente. 


E Velocidad | 154 160 095 130 292 
pS Aceleración | 7.64 8.04 8.04 6.37 5.00 


a) Calcule el coeficiente de correlación entre la velocidad 
máxima y la aceleración máxima. 


a) b) Construya un diagrama de dispersión para estos datos. 


c) ¿El coeficiente de correlación es un resumen adecuado 
de estos datos? Explique por qué. 


d) Alguien sugiere convertir las unidades de metros a cen- 
tímetros y de segundos a minutos. ¿Qué efecto tendría 
sobre la correlación hacer esto? 


7. Un ingeniero químico está estudiando el efecto de la tempe- 
ratura y la tasa de agitación en la producción de cierto pro- 
ducto. El proceso se realiza 16 veces; en la tabla siguiente 
se muestran los resultados. Las unidades para la producción 

b) son porcentajes de un máximo teórico. 


Temperatura Tasa de Producción 
(eC) agitación (rpm) (%) 
110 30 70.27 
110 32 72.29 
111 34 72.57 
111 36 74.69 
112 38 76.09 
112 40 73.14 
114 42 75.61 
114 44 69.56 
117 46 74.41 
117 48 73.49 
122 50 79.18 
122 32 75,44 
130 54 81.71 
130 56 83.03 
143 58 76.98 
143 60 80.99 


a) Calcule la correlación entre la temperatura y la produc- 
ción, entre la tasa de agitación y la producción, y entre 
la temperatura y la tasa de agitación. 

b) ¿Estos datos proporcionan, dentro del rango de los da- 
tos, buena evidencia de que el aumento de la temperatu- 
ra Ocasiona que la producción aumente? ¿O el resultado 


se podría deber a la confusión? Explique. 


c) ¿Estos datos proporcionan, dentro del rango de los datos, 
buena evidencia de que el aumento de la tasa de agitación 
ocasiona que la producción aumente? ¿O el resultado se 
podría deber a la confusión? Explique. 


8. Otro ingeniero químico está estudiando el mismo procedi- 
miento que en el ejercicio 7 y utiliza la siguiente matriz ex- 


perimental. 

Temperatura Tasa de Producción 
(0) agitación (rpm) (%) 
110 30 70.27 
110 40 74.95 
110 50 77.91 
110 60 82.69 
121 30 73.43 
121 40 73.14 
121 50 78.27 
121 60 74.89 
132 30 69.07 
132 40 70.83 
132 50 79.18 
132 60 78.10 
143 30 13.11 
143 40 77.70 
143 50 74.31 
143 60 80.99 


10. 


11. 
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a) Calcule la correlación entre la temperatura y la produc- 
ción, entre la tasa de agitación y la producción, y entre 
la temperatura y la tasa de agitación. 


b) ¿Estos datos proporcionan, dentro del rango de los da- 
tos, buena evidencia de que la producción no está afec- 
tada por la temperatura? ¿O el resultado se podría deber 
a la confusión? Explique. 


c) ¿Estos datos proporcionan, dentro del rango de los datos, 
buena evidencia de que el aumento de la tasa de agita- 
ción ocasiona que la producción aumente? ¿O el resul- 
tado se podría deber a la confusión? Explique. 


d) ¿Cuál de los diseños experimentales es mejor, éste o el 
del ejercicio 7? Explique. 


. Las siguientes son mediciones de la fuerza de tensión en ksi 


(x) y la dureza de Brinell (y) para diez elementos del cobre 
extraído en frío. Suponga que la fuerza de tensión y la du- 
reza de Brinell siguen una distribución normal bivariada. 


x y 
106.2 35.0 
106.3 37.2 
105.3 39.8 
106.1 35.8 
105.4 41.3 
106.3 40.7 
104.7 38.7 
105.4 40.2 
105.5 38.1 
105.1 41.6 


a) Determine un intervalo de confianza de 95% para p, la 
correlación poblacional entre la fuerza de tensión y la du- 
reza de Brinell. 


b) ¿Puede concluir que p < 0.3? 
c) ¿Puede concluir que p + 0? 


En una muestra de 400 cojinetes de bolas, el coeficiente de 
correlación entre la excentricidad y la suavidad fue de r = 
0.10. 


a) Determine el P-valor para probar que H, : p < O contra 
H,: p > 0. ¿Puede concluir que p > 0? 


b) ¿El resultado del inciso a) le permite concluir que hay 
una fuerte correlación entre excentricidad y suavidad? 
Explique. 


Un diagrama de dispersión contiene cuatro puntos: (—2, 
2), (71, —1), (0, 0) y (1, 1). Se agrega un quinto punto, 
(QQ, y), a la gráfica. Sea r la correlación entre x y y. 
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a) Determine el valor de y para que r = 1. d) Determine el valor de y para que r = —0.5. 
b) Determine el valor de y para que r = 0. e) Dé un argumento geométrico para mostrar que no exis- 


c) Determine el valor de y para que r = 0.5. te un valor y para el cual r = —1. 


7.2 La recta de mínimos cuadrados 


Cuando dos variables tienen una relación lineal, el diagrama de dispersión tiende a estar agru- 
pado alrededor de la recta de mínimos cuadrados (véanse las figuras 7.1 y 7.2 en la sección 
7.1). En esta sección se aprenderá cómo calcular la recta de mínimos cuadrados y cómo se 
puede utilizar para obtener conclusiones de los datos. 

Se empieza describiendo un experimento hipotético. Los resortes se usan en aplicacio- 
nes por su capacidad para alargarse (contraerse) bajo carga. La rigidez de un resorte se mide 
con la “constante del resorte”, que es la longitud del resorte que se alargará por unidad de la 
fuerza o de carga.' Para asegurarse de que un resorte dado funciona adecuadamente es nece- 
sario calcular la constante de resorte con exactitud y precisión. 

En este experimento hipotético un resorte se cuelga verticalmente con un extremo fijo, 
y los pesos se cuelgan uno tras otro del otro extremo. Después de colgar cada peso se mide la 
longitud del resorte. Sean x;, ....., x, los pesos, y sea /; la longitud del resorte bajo la carga x;. 
La ley de Hooke establece que 


l|= Bo + Bix; (1.7) 


donde f, representa la longitud del resorte cuando no tiene carga y f, es la constante del re- 
sorte. 

Sea y; la longitud medida del resorte bajo carga x,. Debido al error de medición, y, será 
diferente de la longitud verdadera /;. Se escribe como 


Y; = + €; (7.8) 


donde e, constituye el error en la ¡-ésima medición. Al combinar las ecuaciones (7.7) y (7.8) 
se obtiene 


Yi = Bo + Bix; + €; (7.9) 


En la ecuación (7.9) y; se llama variable dependiente, x, se conoce como variable indepen- 
diente, $, y $, son los coeficientes de regresión, y €, se denomina error. A la ecuación (7.9) 
se le llama modelo lineal. 

La tabla 7.1 presenta los resultados del experimento hipotético y la figura 7.9 el diagra- 
ma de dispersión de y contra x. Se quieren utilizar estos datos para calcular la constante f, del 
resorte y la longitud f, sin carga. Si no hubiera error en la medición, los puntos se encontra- 
rían en una línea recta con pendiente $, e intercepto 6f,, y estas cantidades serían fáciles de 
determinar. Debido al error de medición, f, y f, no se pueden determinar exactamente, pero 
se pueden estimar cuando se calcula la recta de mínimos cuadrados. 


'La definición más tradicional de la constante del resorte es el recíproco de esta cantidad, a saber: la fuerza que se 
requiere para extender el resorte una unidad de longitud. 
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TABLA 7.1 Longitudes medidas de un resorte bajo diferentes cargas 


Peso (Ib) Longitud medida (pulg) Peso (Ib) Longitud medida (pulg) 
eS y x y 
0.0 5.06 2.0 5.40 
0.2 5.01 2.2 5.57 
0.4 5.12 2.4 5.47 
0.6 5.13 2.6 5.53 
0.8 5.14 2.8 5.61 
1.0 5.16 3.0 5.59 
1.2 5.25 3.2 5.61 
1.4 5.19 3.4 5:13 
1.6 5.24 3.6 5.68 
1.8 5.46 3.8 5.80 
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FIGURA 7.9 Gráfica de longitudes medidas de un resorte contra carga. 


La figura 7.10 de la página 494 presenta el diagrama de dispersión de y contra x con la 
recta de mínimos cuadrados sobrepuesta. Se escribe la ecuación de la recta como 


y = Bo + Byx (7.10) 


Las cantidades B oy B ¡ se llaman coeficientes de mínimos cuadrados. El coeficiente B ¡ Te- 
presenta la pendiente de la recta de mínimos cuadrados, es una estimación de la constante ver- 
dadera del resorte fB,, y el coeficiente Be el intercepto de la recta de mínimos cuadrados, 
significa una estimación de la verdadera longitud sin carga Bs. 

La recta de mínimos cuadrados es la que ajusta “mejor” los datos. Ahora se define lo 
que significa “mejor”. Para cada punto de datos (x,, y;) la distancia vertical al punto (x;, $;) en 
la recta de mínimos cuadrados es e; = y; — Y; (véase la figura 7.10). La cantidad Y, = Bo + 
B ¡x, se llama valor ajustado, y la cantidad e; se llama residuo asociado con el punto (x;, y;). 
El residuo e, representa la diferencia entre el valor observado y, en los datos y el valor ajusta- 
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(X; y) 
Y 


Longuitud (pulg) 
uu 
uu 
T 


Peso (Ib) 


FIGURA 7.10 Gráfica de longitudes medidas de un resorte contra carga. La recta de mí- 
nimos cuadrados y = $B o + $B ¡xr está sobrepuesta. La distancia vertical de un punto de datos 
(X;, y¡) para el punto (x;, $) en la recta es el ¡-ésimo residuo e;. La recta de mínimos cuadra- 
dos es la recta que minimiza la suma de los cuadrados de los residuos. 


do $, pronosticado por la recta de mínimos cuadrados. Éste es la distancia vertical del punto 
a la recta. Los puntos arriba de la recta de mínimos cuadrados tienen residuos positivos, y los 
puntos debajo de la recta de mínimos cuadrados tienen residuos negativos. Entre más cerca- 
nos estén los valores ajustados a las observaciones, mejor ajustará la recta a los datos. La recta 
de mínimos cuadrados se define como aquella para la que la suma de cuadrados de los residuos 
1 e? se minimiza. En este sentido, la recta de mínimos cuadrados ajusta mejor los datos 
que cualquier otra recta. 

En el ejemplo de ley de Hooke hay solamente una variable independiente (peso), ya que 
es razonable suponer que la única variable que afecta la longitud del resorte es la cantidad del 
peso colgada de él. En otros casos se necesita utilizar algunas variables independientes. Por 
ejemplo, para pronosticar la cosecha de cierto cultivo se necesitará saber la cantidad de ferti- 
lizante usado, la cantidad de agua aplicada y diferentes mediciones de las propiedades quími- 
cas del suelo. Modelos lineales como la ley de Hooke, con sólo una variable independiente, 
se conocen como modelos de regresión lineal simple. Estos últimos, con más de una varia- 
ble independiente, se llaman modelos de regresión múltiple. Este capítulo trata acerca de la 
regresión lineal simple. La regresión múltiple se trata en el capítulo 8. 


Cálculo de la ecuación de la recta de mínimos cuadrados 


Para calcular la ecuación de la recta de mínimos cuadrados se deben determinar los valores 


para la pendiente $B ¡ y el intercepto Bo que minimizan la suma del residuo >;-, ei. 


7.2 La recta de mínimos cuadrados 


Para hacer esto primero se expresa e, en función de $, y $;: 


e= y ¡>= Bo Bix; 


Por tanto, PB, y P, son las cantidades que minimizan la suma 


BA A 0, = Bo E BixyY 
i=1 i=1 


Estas cantidades son 


Las deducciones de estos resultados se proporcionan al final de esta sección. 


Fórmulas para el cálculo 
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(7.11) 


(7.12) 


(7.13) 


(7.14) 


Es necesario calcular las cantidades Y ;-1 (x, — YY y D;-1 (x, — DO, — Y) con el fin de 
determinar la ecuación de la recta de mínimos cuadrados y, como pronto se verá, la cantidad 
Y -1 (1, — YY que se necesita calcular con el fin de determinar qué tan bien ajusta la recta a 
los datos. Cuando se calculan estas cantidades a mano existen fórmulas alternas que con fre- 


cuencia son más fáciles de utilizar. Estas se proporcionan en el cuadro siguiente. 


Fórmulas para el cálculo 


cuencia, más fáciles de calcular: 


n n 


Ne (a, — y = El — nr 


i=1 p=il 


A ñ 
No» = > yn? 
i=1 i=1 


No. O Na — NXy 
¡=1 ¡=1 


Las expresiones de la derecha son equivalentes a las de la izquierda, y son, con fre- 


(7.15) 


(7.16) 


(7.17) 


Con los datos de la ley de Hooke de la tabla 7.1 calcule los estimadores de mínimos cuadra- 
dos de la constante del resorte y la longitud sin carga del resorte. Escriba la ecuación de la 


recta de mínimos cuadrados. 
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Solución 
La estimación de la constante del resorte es 5, y la estimación de la longitud sin carga es Pp. 
De la tabla 7.1 se calcula: 


x = 1.9000 y = 5.3885 


Y Gx — x= y — nx? = 26.6000 


i=1 i=1 


Y (a; 0 — Y) =D) xi; — NT Y = 5.4430 
i=1 


¡=1 
Mediante las ecuaciones (7.13) y (7.14) se calcula 


A 5.4430 


P1= 266000 — 92046 


Bo = 5.3885 — (0.2046)(1.9000) = 4.9997 


La ecuación de la recta de mínimos cuadrados es y = Ba sk B ¡X. Al sustituir los valores cal- 
culados para $, y $ ,, se obtiene 


y = 4.9997 + 0.2046 x 


Con la ecuación de la recta de mínimos cuadrados se pueden calcular los valores ajus- 
tados $) ¡= Bo + B px, y los residuos e, = y; + $, para cada punto (x;, y;) en el conjunto de da- 
tos de la ley de Hooke. Los resultados se presentan en la tabla 7.2. El punto cuyo residuo se 
muestra en la figura 7.10 es x = 2.2. 

En el ejemplo de la ley de Hooke la cantidad f, + fx representa la longitud verdade- 
ra del resorte bajo una carga ». Puesto que $B oy $, son estimadores de los valores verdaderos 
Bo y B; la cantidad $ = $, + $ ¡x es una estimación de 8, + fx. Los ejemplos 7.7 y 7.8 mues- 
tran esto último. 


Con los datos de la ley de Hooke calcule la longitud del resorte bajo una carga de 1.3 lb. 


Solución 

En el ejemplo 7.6 la ecuación de la recta de mínimos cuadrados se calculó de y = 4.9997 + 
0.2046x. Con el valor x = 1.3 se estima que la longitud del resorte bajo una carga de 1.3 lb 
es de 


$ = 4.9997 + (0.2046) (1.3) = 5.27 pulg. 
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TABLA 7.2 Longitudes medidas de un resorte bajo diferentes cargas, con valores ajusta- 
dos y residuos 


Longitud Valor Longitud Valor 
Peso medida ajustado  Residuo Peso medida ajustado  Residuo 

x y y e x y y e 

0.0 5.06 5.00 0.06 2.0 5.40 5.41 0.01 
0.2 5.01 5.04 0.03 2d 3.37 5.45 0.12 
0.4 9,12 5.08 0.04 2.4 5.47 5.49 0.02 
0.6 5.13 5.12 0.01 2.6 5.53 5.53 0.00 
0.8 5.14 5.16 —0.02 2.8 2:01 5.57 0.04 
1.0 5.16 5.20 0.04 3.0 5.59 5.61 —0.02 
1.2 5.25 5.25 0.00 3.2 5.61 5.65 —0.04 
1.4 5.19 5.29 0.10 3.4 5.75 5.70 0.05 
1.6 5.24 5.33 0.09 3.6 5.68 5.74 —0.06 
1.8 5.46 5.37 0.09 3.8 5.80 5.78 0.02 


Utilizando la ley de Hooke con los datos, estime la longitud de un resorte bajo una carga de 
1.4 lb. 


Solución 
La estimación es Y = 4.9997 + (0.2046)(1.4) = 5.29 pulg. 


En el ejemplo 7.8, observe que la longitud medida en una carga de 1.4 era de 5.19 pulg 
(véase la tabla 7.2). Pero la estimación de mínimos cuadrados de 5.29 pulg está basada en to- 
dos los datos y es más precisa (tiene menor incertidumbre). En la sección 7.3 se aprenderá có- 
mo calcular incertidumbres en los estimadores $. 


Los estimadores no son lo mismo que los valores verdaderos 


Es importante entender la diferencia entre los estimadores de mínimos cuadrados $B oy B py 
los valores verdaderos PB, y fP,. Los valores verdaderos son constantes cuyos valores no se co- 
nocen. Los estimadores son cantidades que se calculan a partir de los datos. Se pueden utili- 
zar los estimadores como aproximaciones de los valores verdaderos. 

En principio, un experimento como el de la ley de Hooke se podría repetir muchas veces. 
Los valores verdaderos fB, y $; permanecerían constantes en todas las reproducciones del expe- 
rimento, pero cada reproducción produciría datos diferentes; por consiguiente, valores diferen- 
tes de los estimadores $, y $,. Los estimadores $, y $, son, por tanto, variables aleatorias, ya 
que sus valores varían de experimento a experimento. Para usar completamente estos estimado- 
res será preciso calcular sus desviaciones estándar. Este tema se analizará en la sección 7.3. 


Los residuos no son lo mismo que los errores 


Un conjunto de puntos (xy, y¡), . . . , (X,, y,) Sigue un modelo lineal si las coordenadas x y y 
están relacionadas por medio de la ecuación y, = fp, + f¡x; + €¡. Es importante entender la 
diferencia entre los residuos e, y los errores £,. Cada residuo e, es la diferencia y, — $, entre el 
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valor observado, o valor medido, el valor y, y el valor ajustado $), = Bo as B ¡x, calculado por 
la recta de mínimos cuadrados. Debido a que los valores y, se conocen y los valores $, se pue- 
den calcular a partir de los datos, es posible calcular los residuos. En contraste, los errores €; 
representan las diferencias entre y; y los valores B, + fx, Puesto que los valores verdaderos 
Bo y Bi no se conocen, los errores son también desconocidos. Otra manera de considerar la di- 
ferencia consiste en que los residuos constituyen las distancias verticales de los valores ob- 
servados y; y la recta de mínimos cuadrados Y = B o+ B ¡x, y los errores son las distancias del 
y, a la recta verdadera y = fB, + fx. 


Dados los puntos (x;, y1), . . . , (Cp Y): 
mM La recta de mínimos cuadrados es Y = Bo + B ¡X. 
Nr — DO — Y) 
14 E 
Bo=Y — Bix 
Las cantidades que B oy B ¡ Se consideran como los estimadores de una pendiente 
verdadera $, y de un intercepto verdadero fp. 


m $¡= 


Para cualquier x, $ = Bo + f¡x significa una estimación de la cantidad fp + fx. 


No haga una extrapolación fuera del rango de los datos 


¿Qué sucede si se quería estimar la longitud del resorte bajo una carga de 100 lb? La estima- 
ción de mínimos cuadrados es 4.9997 + (0.2046)(100) = 25.46 pulg. ¿Se debe creer esto? 
No. Ninguno de los pesos en el conjunto de datos era tan grande. Es probable que el resorte 
se deformaría, por lo que la ley de Hooke no valdría. Para muchas variables las relaciones li- 
neales valen dentro de cierto rango, pero no fuera de él. Si se extrapola una recta de mínimos 
cuadrados fuera del rango de los datos, no habrá garantía de que describirá la relación adecua- 
damente. Si se quiere saber cómo responderá el resorte a una carga de 100 lb se deben incluir 
pesos de 100 lb o mayores en el conjunto de datos. 


No extrapole una recta ajustada (como la recta de mínimos cuadrados) fuera del rango 
de los datos. La relación lineal puede no ser válida ahí. 


No use la recta de mínimos cuadrados cuando 
los datos no sean lineales 


En la sección 7.1 se aprendió que el coeficiente de correlación se debía usar solamente cuan- 
do la relación entre x y y sea lineal. Lo mismo es verdad para la recta de mínimos cuadrados. 
Cuando el diagrama de dispersión sigue un patrón curvado no tiene caso presentarlo con una 
línea recta. Para mostrar esto, la figura 7.11 presenta una gráfica de la relación entre la altu- 
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Altura (pies) 


Tiempo (s) 


FIGURA 7.11 Relación entre la altura de un objeto en caída libre con una velocidad ini- 
cial positiva y el tiempo de caída libre no es lineal. La recta de mínimos cuadrados no se 
ajusta bien a los datos y no se debe utilizar para pronosticar la altura del objeto para un 
tiempo dado. 


ra y de un objeto desde su lanzamiento a una altura de 256 pies y el tiempo x desde que se 
lanzó. La relación entre x y y no es lineal. La recta de mínimos cuadrados no se ajusta bien a 
los datos. 

En algunos casos la recta de mínimos cuadrados se puede utilizar para datos no linea- 
les, después de que se ha aplicado un proceso conocido como transformación variable. En la 
sección 7.4 se analiza este tema. 


Otra mirada a la recta de mínimos cuadrados 


La expresión (7.13) para BP, puede rescribirse en una forma que proporciona una interpreta- 
ción útil. Iniciando con la definición del coeficiente de correlación (ecuación 7.2 en la sección 


7.1) y al multiplicar ambos lados por Y ;-101 = Y)/WD);-1 (6 — 1)? = sy/Sx se obtie- 
ne el resultado 


E S, 
B|, = rs (7.18) 
La ecuación 7.18 permite interpretar la pendiente de la recta de mínimos cuadrados en fun- 
ción del coeficiente de correlación. Las unidades de B 1» la pendiente de la recta de mínimos 
cuadrados, deben ser unidades de y/x. El coeficiente de correlación r es un número puro que 
mide la fuerza de la relación lineal entre x y y. La ecuación (7.18) muestra que la pendiente 
B ¡ es proporcional al coeficiente de correlación, donde la constante de proporcionalidad es la 
cantidad s,/s, para que las unidades concuerden con las unidades en las que se miden x y y. 
Con la ecuación (7.13) se puede escribir la recta de mínimos cuadrados en su forma 
punto pendiente: Sustituyendo y- $b ¡X por Bo en la ecuación para la recta de mínimos cua- 
drados Y = $B o + B ¡* y reordenando los términos se obtiene 


=3= Bix -x) (7.19) 
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CAPÍTULO 7 Correlación y regresión lineal simple 
Combinando las ecuaciones (7.18) y (7.19) se tiene que 
2 = Sy pe 
y=y= SS =X) (7.20) 


Por consiguiente, la recta de mínimos cuadrados es la que pasa a través del centro de masa 
del diagrama de dispersión (x, y), con pendiente $ = r(s,/s,). 


Medición de la bondad del ajuste 


Un estadístico de la bondad del ajuste representa una cantidad que mide qué tan bien un mo- 
delo explica un conjunto específico de datos. Un modelo lineal ajusta bien si hay una fuerte 
relación lineal entre x y y. En la sección 7.1 se mencionó que el coeficiente de correlación r 
mide la fuerza de la relación lineal entre x y y. Por tanto, r es un estadístico de la bondad del 
ajuste para el modelo lineal. Ahora se describirá cómo mide r la bondad del ajuste. La figura 
7.12 presenta los datos de Galton acerca de las longitudes de antebrazos contra la estatura. 
Los puntos en el diagrama de dispersión son (x;, y;), donde x; significa la estatura del hombre 
del ¡-ésimo y y, es la longitud de su antebrazo. Tanto la recta de mínimos cuadrados como la 
horizontal y = y están sobrepuestas. Ahora imagine que se debe predecir la longitud de uno 
de los antebrazos. Si no se conoce la estatura del hombre, se debe predecir que la longitud del 
antebrazo es el promedio de y. Los errores de predicción son y; — y. Si se pronostica de es- 
ta manera la longitud de cada antebrazo, la suma de los errores pronosticados al cuadrado será 
Ni=1 O = y. Si, por otro lado, se conoce la estatura de cada hombre antes de pronosticar 


21 


Longitud de antebrazos (pulgadas) 


15 | | | | | | 
60 62 64 66 68 70 7 74 


Estatura (pulgadas) 


FIGURA 7.12 Estatura y longitud de antebrazos de hombres. La recta de mínimos 
cuadrados y la horizontal y = y están sobrepuestas. 
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la longitud de su antebrazo se puede utilizar la recta de mínimos cuadrados, y predecir que la 
longitud del ¡-ésimo antebrazo sea ), . El error pronosticado será el residuo y, — 5, y la su- 
ma de los errores pronosticados al cuadrado es: »;-¡ (y, — 9y . La fuerza de la relación li- 
neal se mide al calcular la reducción obtenida en la suma de los errores pronosticados al 
cuadrado con $, en lugar de y. Esto es la diferencia »;-, (y, — yy = Ni 0 y Mien- 
tras más grande sea la diferencia, más fuertes serán la agrupación de puntos alrededor de la 
recta de mínimos cuadrados y la relación lineal entre x y y. Por tanto, »;-1 (y, — yy = NI 
(y. = 9y es un estadístico de la bondad del ajuste. 

Sin embargo, existe un problema al utilizar >; (y, — yy = Ni 0 yy como un 
estadístico de la bondad del ajuste. Esta cantidad tiene unidades, a saber, unidades cuadradas 
de y. No se podía usar este estadístico para comparar la bondad del ajuste de dos modelos que 
ajusten diferentes conjuntos de datos, puesto que las unidades serían diferentes. Se necesita 
utilizar un estadístico de la bondad del ajuste que sea un número puro para que se pueda me- 
dir la bondad del ajuste en una escala absoluta. 

Aquí es donde entra el coeficiente de correlación r. Se demuestra al final de esta sec- 
ción que 


Es O a ON > yy > Ni 0 > 9)? 

Ni1 04 > yy 
La cantidad Pr, el cuadrado del coeficiente de correlación, se llama coeficiente de la deter- 
minación. Ésta es la reducción obtenida en la suma de los errores pronosticados al cuadrado 
al utilizar $, en lugar de y, expresado como una fracción de la suma de los errores pronosti- 
cados al cuadrado Y ;-¡ (y, — yY, obtenidos al usar y. Es importante conocer esta interpreta- 
ción de r?. En el capítulo 8 se verá cómo se puede generalizar para proporcionar una medida 
de la bondad del ajuste para relaciones lineales que implican varias variables. 

Para una interpretación visual de r?, observe la figura 7.12. Para cada punto (x;, y;) en 
el diagrama de dispersión, la cantidad y, — y constituye la distancia vertical del punto a la rec- 
ta horizontal y = y. La cantidad y, — 5), es la distancia vertical del punto a la recta de míni- 
mos cuadrados. Por tanto, la cantidad »>;-¡ (y, — yy mide la dispersión total de los puntos 
alrededor de la recta y = 5, y la cantidad Y ;-, (y, — 9y mide la dispersión total de los pun- 
tos alrededor de la recta de mínimos cuadrados. Por consiguiente, la cantidad »;-, (y, — yy 
= Na (y, yy mide la reducción en la dispersión de los puntos obtenidos usando míni- 
mos cuadrados en lugar de y = y. El coeficiente de determinación r expresa esta reducción 
como una proporción de la dispersión alrededor de y = y. 

Las sumas de los cuadrados que aparecen en este análisis se utilizan tan a menudo que 
los estadígrafos les han dado nombres. Llaman a »;_¡ (y, — 9? la suma de los cuadrados 
de los errores y a »;-¡ (y, — yy la suma total de los cuadrados. Su diferencia »;_, (y, — 
y — Y-1 (1, — 9? se denomina suma de los cuadrados de la regresión. Evidentemente, 
la siguiente relación es válida: 


(7.21) 


Suma total _ Suma de los cuadrados , Suma de los cuadrados 
de los cuadrados de la regresión de los errores 


Mediante la terminología anterior se puede escribir la ecuación (7.21) como 


2 Suma de los cuadrados de la regresión 
De 


Suma total de los cuadrados 
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Puesto que la suma total de cuadrados es exactamente la varianza muestral de los y, sin divi- 
. » . 2 ., 
dir entre n — 1, los estadígrafos (y otros) con frecuencia se refieren a r? como la proporción 

de la varianza en y explicada por la regresión. 


Deducción de los coeficientes de mínimos cuadrados $, y $, 
Se deducirán las ecuaciones (7.13) y (7.14). Los coeficientes de mínimos cuadrados By y 
$B, son las cantidades que minimizan la suma 


5 Y 6 Bo mM Bix 
¡i=1 


Se calculan estos valores mediante derivadas parciales de S con respecto a B, y BP, e igua- 
lándolas a O. Por tanto, By y B, son las cantidades que resuelven las ecuaciones simultáneas 


9S " 22 

A 2(y; = E dy == 

Io 2 ici dnd (1.22) 
9S n EN ES 

% == > 2x5 (Y; — Bo —Brxi) =0 (7.23) 


Sil 


Estas cantidades se pueden escribir como un sistema de ecuaciones lineales con dos incóg- 


nitas: 
nBo + (E=)a E (7.24) 
i=1 i 


¡=1 
e 2 = E 
(En)a+(21)a- 20 035 
Se despeja a Bo de la ecuación (7.24), obteniendo 
ad 2 ja 


=y-B,x 


Esto demuestra la ecuación (7.14). Ahora se sustituye y — B ¡Xx en lugar de Bo en la ecua- 
ción (7.25), con lo que se tiene que 


(E 5) O-BD+ (E .) A (7.26) 
¡=1 ¡=1 ¡=1 
Despejando a B ¡ de la ecuación (7.26), se tiene que 


Dj=1 MiYi — NX Y 


DA 
¿=il Xi nx 


B1= 
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Para demostrar la ecuación (7.13) se debe mostrar que );-¡ (x, = 1)? = 1% — nx? y 
que Y; (4, — DO, — Y) = D;-1 xy, — nx. (Éstas son las ecuaciones 7.15 y 7.17.) 


Ahora 
n n 
Y 0 Y) = Y ayi — Ty — Y +1 Y) 
¿=il ó=1 
n n n n 
A 
¿=il i=l el i=1 
n 
= Sri —= 1038 7 — 10.035 3PIO3E y) 
¿=il 
n 
= o =NXY 
i=Ál 
También 


E 1)? = Na? A) 
¡=1 


¡=1 
n n n 
a 2 
=D +) 
¡=1 ¡=1 ¡=1 


n 
= » a —2nx? + nx? 
¡=1 


n 

2 a 

= > Xi — ni 
ll 


Deducción de la ecuación (7.21) 
Primero se demuestra que 


YN o-1r=M0-9*+ 0,-y* (7.27) 
i=1 i=1 i=1 


Este resultado se conoce como la identidad del análisis de varianza. Para deducirla se co- 
mienza por sumar y restar $), en el lado izquierdo: 


ao == E O ==> 
== A 0 = 5) 
Ahora sólo se necesita demostrar que Ni=1 0; = 96; — y) = 0. Puesto que $), = Bo ab 
Bix, y Bo=Y — Bix, 
9,=3+B,-2) (7.28) 
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Por tanto, 
Y 0 $061 — 5) =D 10; — Y) Br — DIIB (e — 1] 
¡=1 i=1 
=Bi 2 201 - Y) -Éi 2 O 
Ahora $; = Lia DO y por lo que 


e =P 
Y a DO» =B1 0 - 
ll g=il 


Sustituyendo en la ecuación (7.29) se obtiene 


n n 


No 0601 -9) =P 02 Bm? =0 


¡Sil al i=Il 


Esto último demuestra la identidad del análisis de varianza. 
Para deducir la ecuación (7.21), la ecuación (7.28) implica que 


Y — y =B1(% —x) (7.30) 
Elevando al cuadrado ambos lados de la ecuación (7.30) y sumando, se obtiene 
y 
NO; -yY =Bi NE xy 
¡=1 ¡=1 
e) S, y 
Ahora PB, =r 57 (ecuación 7.18), por lo que 
p? =p Os E yy 
ds = 4)" 


Sustituyendo y eliminando, se obtiene 


YN O - y =r? Y 0 — y 
¡=1 ¡=1 
por lo que 
2 Ni=10 1 a yy 
NO = yy 


Por la identidad del análisis de varianza, D;-1 (9, — YY = 1 0 — YY — Di-1 0 
Ad Por tanto, 
A A 
po = n 0 
IN 


Ejercicios de la sección 7.2 


1. Todos los meses, durante cierto periodo, se midieron la tem- 


peratura promedio en *C (x) y el número de libras de vapor 
(y) consumidas por cierta planta química. La recta de míni- 
mos cuadrados calculada de los datos resultantes es y = 
245.82 + 1.13 x. 


a) Pronostique el número de libras del vapor consumido en 
un mes donde la temperatura promedio es 65%C. 


b) Si dos meses difieren en sus temperaturas promedio por 
5*C, ¿cuánto predice que será diferente el número de li- 
bras del vapor consumido? 


. En un estudio de la relación entre la dureza de Brinell (x) y 
la tensión de compresión en ksi (y) de elementos de cobre 
extraídos en frío, la recta de mínimos cuadrados fue y = 
— 196.32 + 2.42x. 


a) Pronostique la fuerza de tensión de un elemento cuya 
dureza de Brinell es 102.7. 


b) Si las dos muestras difieren en su dureza de Brinell en 
3, ¿cuánto predice que serán diferentes sus tensiones de 
compresión? 


. Una recta de mínimos cuadrados está ajustando a un con- 
junto de puntos. Si la suma total de los cuadrados es y O; 
— y) = 9 615, y la suma de los cuadrados de los errores es 
y Oj Py = 1 450, calcule el coeficiente de determina- 
ción 7”. 


. Una recta de mínimos cuadrados está ajustando un conjunto 
de puntos. Si la suma total de cuadrados es y O yy = 
181.2, y la suma de los cuadrados de los errores es y O 
9? = 33.9, calcule el coeficiente de determinación 7. 


. Con los datos de las estaturas de Galton (figura 7. 1, en la 
sección 7.1), la recta de mínimos cuadrados para pronosti- 


car la longitud del antebrazo (y) de la estatura (x) es y = 
0.2967 + 0.2738x. 


a) Pronostique la longitud del antebrazo de un hombre cu- 
ya estatura es 70 pulg. 


b) ¿Qué estatura debe tener un hombre con el propósito de 
que se pronostique que su longitud de antebrazo sea de 19 
pulg? 

c) Todos los hombres en cierto grupo tienen mayor estatu- 
ra que las que se calcularon en el inciso b). ¿Puede con- 
cluir que todos sus antebrazos serán de al menos 19 pulg 
de longitud? Explique. 


. En un estudio que relaciona el grado de deformación, en 
mum, de una placa de cobre (y) a la temperatura en *C (x) se 
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calculó el siguiente resumen estadístico: n = 40, a (64 
- xy = 98 775, Y, 0, — Y” = 19.10, x = 26.36, y = 
0.5188, a (x, — DO, — Y) = 826.94. 


a) Calcule la correlación r entre el grado de deformación y 
la temperatura. 


b) Calcule la suma de cuadrados del error, la suma de cua- 
drados de regresión y la suma total de cuadrados. 


c) Calcule la recta de mínimos cuadrados para pronosticar 
la deformación de la temperatura. 


d) Pronostique la deformación a una temperatura de 40*C. 


e) ¿A qué temperatura se pronostica que la deformación 
será de 0.5 mm? 


f) Suponga que es importante que la deformación no sea 


mayor de 0.5 mm. Un ingeniero sugiere que si la tempe- 
ratura se conserva debajo del nivel calculado en el inci- 
so e) se puede tener la seguridad de que la deformación 
no será mayor de 0.5 mm. ¿Ésta es una conclusión co- 
rrecta? Explique. 


. Se midió el peso inercial (en toneladas) y el ahorro de com- 


bustible (en milla/galón) para una muestra de siete camiones 
de diesel. En la tabla siguiente se presentan los resultados. 
(De “In— Use Emissions from Heavy —Duty Diesel Vehi- 
cles,” J. Yanowitz, tesis de doctorado, Escuela de Minas de 
Colorado, 2001.) 


Peso Millaje 
8.00 7.69 
24.50 4.97 
27.00 4.56 
14.50 6.49 
28.50 4.34 
12.75 6.24 
21.25 4.45 


a) Construya un diagrama de puntos del millaje (y) contra el 
peso (x). Compruebe que un modelo lineal es adecuado. 


b) Calcule la recta de mínimos cuadrados para pronosticar 
el millaje a partir del peso. 


c) Silos dos camiones son diferentes en peso por cinco to- 
neladas, ¿cuánto predeciría que son diferentes sus milla- 
jes? 


d) Pronostique el millaje para camiones con un peso de 15 
toneladas. 
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e) ¿Cuáles son las unidades de la pendiente estimada B 1? 


f) ¿Cuáles son las unidades del intercepto estimado Bo 


8. El procesamiento de carbón natural implica el “lavado” du- 


rante el cual se elimina ceniza de carbón (no orgánico, ma- 
terial no combustible). El artículo “Quantifying Sampling 
Precision for Coal Ash Using Gy's Discrete Model of the 
Fundamental Error” (Journal of Coal Quality, 1989, 33-39) 
proporciona los datos relacionados con los porcentajes de 
ceniza con la densidad de una partícula de carbón. Se midió 
el promedio de porcentaje de ceniza para cinco densidades 
de partículas de carbón. En la tabla siguiente se presentan 
los datos: 


Densidad Porcentaje 

(g/cm?) de ceniza 
1.25 1.93 
1.325 4.63 
1375 8.95 
1.45 15.05 
1:39 23.31 


a) Construya un diagrama de dispersión del porcentaje de 
ceniza (y) contra la densidad (x). Verifique que es ade- 
cuado un modelo lineal. 


b) Calcule la recta de mínimos cuadrados para pronosticar 
porcentaje de ceniza a partir de la densidad. 


c) Si las dos partículas de carbón difieren en densidad por 
0.1 g/cm?, ¿cuánto predeciría que será diferente el por- 
centaje de ceniza? 


d) Pronostique el porcentaje de ceniza para partículas con 
1.40 g/cm'. 


e) Calcule los valores ajustados. 

$) Calcule los residuos. ¿Qué punto tiene el residuo con 
magnitud mayor? 

8) Calcule la correlación entre la densidad y el porcentaje 


de ceniza. 


h) Calcule la suma de cuadrados de regresión, la suma de 
cuadrados del error y la suma total de cuadrados. 


1) Divida la suma de cuadrados de regresión entre la suma 
total de cuadrados. ¿Cuál es la relación entre esta canti- 
dad y el coeficiente de correlación? 


. En pruebas diseñadas para medir el efecto de cierto aditivo 
en el tiempo de secado de pintura se obtuvieron los siguien- 
tes datos. 


10. 


11. 


CAPÍTULO 7 Correlación y regresión lineal simple 


Concentración 


de aditivo (%) Tiempo de secado (h) 


4.0 8.7 
4.2 8.8 
4.4 8.3 
4.6 8.7 
4.8 8.1 
5.0 8.0 
5.2 8.1 
5.4 11 
5.6 ye) 
5.8 4.2 


a) Construya un diagrama de dispersión del tiempo de se- 
cado (y) contra la concentración del aditivo (x). Veri- 
fique que es adecuado un modelo lineal. 


b) Calcule la recta de mínimos cuadrados para pronosticar 
el tiempo de secado a partir de la concentración del adi- 
tivo. 


c) Calcule el valor ajustado y el residuo para cada punto. 


d) Si la concentración del aditivo está aumentando en 0.1%, 
¿en cuánto predeciría que aumente o disminuya el tiem- 
po de secado? 


e) Pronostique el tiempo de secado para una concentración 
de 4.4%. 


f) ¿Puede utilizarse la recta de mínimos cuadrados para 
pronosticar el tiempo de secado respecto a una concen- 
tración de 7%? Si es así, pronostique el tiempo de seca- 
do. Si no, explique por qué. 

8) ¿Para qué concentración pronosticaría un tiempo de se- 
cado de 8.2 horas? 


h) El objetivo de este proyecto es reducir el tiempo de se- 
cado a seis horas. Con base en los datos dados, ¿puede 
especificar una concentración que probablemente oca- 
sione este resultado? Si es así, especifique la concentra- 
ción. Si no, explique por qué. 


Los tiempos de curado en días (x) y las fuerzas compresivas 
en MPa (y) se registraron para varios elementos de concre- 
to. Las medias y las desviaciones estándar de los valores x 
y y fueron Y = 5,5, =2,y = 1350, s, = 100. La correla- 
ción entre tiempos de curado y las fuerzas compresivas se 
calculó de r = 0.7. Encuentre la ecuación de la recta de mí- 
nimos cuadrados para pronosticar la fuerza compresiva a 
partir de los tiempos de curado. 


Diferentes cantidades de pectina se agregaron a gelatina en- 
latada para estudiar la relación entre la concentración de 


12. 


13. 


14. 


pectina en % (x) y el índice de firmeza (y). Las medias y las 
desviaciones estándar de los valores de x y de y fueron x = 
3, 5, = 0.5, y = 50, Sy = 10. La correlación entre los tiem- 
pos de cura y la firmeza se calculó de r = 0.5. Determine la 
ecuación de la recta de mínimos cuadrados para pronosticar 
la firmeza a partir de la concentración de pectina. 


Un ingeniero quiere pronosticar el valor de y cuando x = 
4.5 utilizando el siguiente conjunto de datos. 


x y z=Iny Xx y z=Iny 
1 0.2 —1.61 6 2.3 0.83 
2 0.3 -1.20 7 2.9 1.06 
3 0.5 —0.69 8 4.5 1.50 
4 0.5 —0.69 9 8.7 2.16 
5 1.3 0.26 10 12.0 2.48 


a) Construya un diagrama de dispersión de los puntos (x, y). 


b) ¿La recta de mínimos cuadrados se debe utilizar para 
pronosticar el valor de y cuando x = 4.5? Si es así, cal- 
cule la recta de mínimos cuadrados y el valor pronosti- 
cado. Si no, explique. 


c) Construya un diagrama de dispersión de los puntos (x, 
z), donde z = In y. 


d) Utilice la recta de mínimos cuadrados para pronosticar 
el valor de z cuando x = 4.5. ¿Este es un método ade- 
cuado de pronóstico? Explique por qué sí o no. 


e) Sea 7 el valor pronosticado de z calculado en el inciso 
d). Sea Y = e”. Explique por qué $ es un pronosticador 
razonable del valor de y cuando x = 4.5. 


Una muestra aleatoria simple de 100 hombres entre 25 y 34 
años de edad promediaron 70 pulgadas de estatura, y tenían 
desviación estándar de tres pulgadas. Sus ingresos prome- 
diaron $34 900 y tenían desviación estándar de $17 200. 
Complete el espacio en blanco: a partir de la recta de míni- 
mos cuadrados se predeciría que los ingresos de un hombre 
de 70 pulgadas de estatura serían de 


i. Menor que $34 900. 
il. Mayor que $34 900. 
iii. Igual a $34 900. 
iv. No se puede saber a menos que se conozca la correla- 


ción. 


Una mezcla de sacarosa y agua se calentó en una plancha y 
la temperatura (en *C) se registró cada minuto durante 20 
minutos con tres termómetros de termopar. Los resultados 
se muestran en la tabla siguiente. 


a) 


b) 


c) 


d) 


e) 
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Tiempo T, T T 
0 20 18 21 
1 18 22 11 
2 29 22 26 
3 32 25 35 
4 37 37 33 
5 36 46 35 
6 46 45 44 
7 46 44 43 
8 56 54 63 
9 58 64 68 
10 64 69 62 
11 72 65 65 
12 79 80 80 
13 84 74 75 
14 82 87 78 
15 87 93 88 
16 98 90 91 
17 103 100 103 
18 101 98 109 
19 103 103 107 
20 102 103 104 


Calcule la recta de mínimos cuadrados para estimar la 
temperatura como función del tiempo usando 7, como 
el valor para la temperatura. 


Calcule la recta de mínimos cuadrados para estimar la 
temperatura como una función del tiempo usando 7, co- 
mo el valor para la temperatura. 


Calcule la recta de mínimos cuadrados para estimar la 
temperatura como una función del tiempo usando 7; co- 
mo el valor para la temperatura. 


Se desea calcular una sola recta para calcular la tempe- 
ratura como una función del tiempo. Una persona sugie- 
re promediar los tres estimadores de la pendiente para 
obtener una sola estimación de la pendiente, y prome- 
diar los tres estimadores del intercepto para obtener una 
sola estimación del intercepto. Determine la ecuación de 
la recta que es resultado de este método. 


Otra persona sugiere promediar las tres mediciones de la 
temperatura cada vez para obtener T = (T, + T, + 
T,)/3. Calcule la recta de mínimos cuadrados usando T 
como el valor para la temperatura. 


¿Los resultados de los incisos d) y e) son diferentes? 
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CAPÍTULO 7 Correlación y regresión lineal simple 


Incertidumbres en los coeficientes 
de mínimos cuadrados 


En la sección 7.2 se presentó el modelo lineal (ecuación 7.9): 


Y = Bo + Bix; + €; 


Aquí e, es el error en la ¡-ésima observación y;,. En la práctica, e, representa la acumulación 
del error de muchas fuentes. Por ejemplo, en los datos de la ley de Hooke puede estar afecta- 
do por los errores al medir la longitud del resorte, al medir los pesos de las cargas puestas en 
el resorte, las variaciones en la elasticidad del resorte debidas a los cambios en la temperatu- 
ra ambiental o al cansancio mental, etcétera. Si no hubiera error los puntos se encontrarían 
exactamente en la recta de mínimos cuadrados, y la pendiente B ¡ y el intercepto $B o de la rec- 
ta de mínimos cuadrados serían iguales a los valores verdaderos f, y f,. Debido al error los 
puntos están dispersos alrededor de la recta, y las cantidades Bo y $b ¡ ho igualan los valores 
verdaderos. Cada vez que se repite el proceso, los valores de e, y, por tanto, los valores de $B 0 
y 16] ¡ Serán diferentes. En otras palabras, €,, Bo, y $b ¡ Son variables aleatorias. Más específica- 
mente, el error e, crea incertidumbre en los estimadores Bo y B ¡- Es obvio que si el e, tiende 
a tener una magnitud pequeña, los puntos estarán muy agrupados alrededor de la recta, y la 
incertidumbre en los estimadores de mínimos cuadrados $B oy $b ¡ Será pequeña. Por otro lado, 
si el e, tiende a tener mayor magnitud, los puntos estarán muy dispersos alrededor de la rec- 
ta, y la incertidumbre (desviaciones estándar) en los estimadores de mínimos cuadrados Bo y 
B | Será mayor. 

Suponga que se tienen n puntos de datos (%;, y¡), . . . , (Xy, y,) y se planea ajustar la rec- 
ta de mínimos cuadrados. Con la finalidad de que los estimadores Bo y $b ¡ Sean útiles, se ne- 
cesita estimar qué tan grandes son sus incertidumbres. Para realizar este cálculo se necesita 
conocer algo acerca de la naturaleza de los errores e,. Se iniciará por estudiar la situación más 
simple, en la cual se satisfacen cuatro supuestos importantes. Éstos se presentan en el cuadro 
siguiente. 


Supuestos para los errores en los modelos lineales 
En la situación más simple los siguientes supuestos se satisfacen: 


1. Los errores €, ...., €, son aleatorios e independientes. En particular, la magnitud 
de cualquier error e, no influye en el valor del siguiente error €; y ¡. 


2. Todos los errores €;, ....., €, tienen media 0. 

: E ; 2 
3. Todos los errores €;, .. ., €, tienen la misma varianza, que se denota por O”. 
4. Los errores €, ...., €, están distribuidos normalmente. 


Estos supuestos son restrictivos, por lo que es útil analizar brevemente el grado con el cual 
es aceptable incumplirlos en la práctica. Cuando el tamaño de muestra es grande, el supuesto de 
normalidad (4) será menos importante. Los incumplimientos moderados del supuesto de la va- 
rianza constante (3) no importa demasiado, pero se deben corregir los graves. En la sección 7.4 
se analizarán los métodos para corregir algunos incumplimientos de estos supuestos. 
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Bajo estos supuestos, el efecto del e, lo gobierna en gran parte la magnitud de la varian- 
za o”, ya que ésta determina qué tan grandes son los errores. Por tanto, con la finalidad de cal- 
cular las incertidumbres en Bo y $b ¡» primero se debe estimar la varianza del error 0”. Debido 
a que la magnitud de la varianza se refleja en el grado de dispersión de los puntos alrededor 
de la recta de mínimos cuadrados, se tiene que midiendo esta dispersión se puede calcular la 
varianza. Específicamente, la distancia vertical desde cada punto de datos (x;, y;) a la recta de 
mínimos cuadrados está dada por el residuo e, (véase la figura 7.10 en la sección 7.2). La dis- 
persión de los puntos alrededor de la recta se puede medir con la suma de los residuos al cua- 
drado »>;-; e. El estimador de la varianza del error 0? es la cantidad s? dada por 


¡E Nat - Ni 0 — $0? (7.31) 
n-2 n-2 
El estimador de la varianza del error es, por tanto, el promedio de los residuos al cua- 
drado, excepto que se divide entre n — 2 en lugar de n. La razón para esto se debe a que la 
recta de mínimos cuadrados minimiza la suma >; e y los residuos tienden a ser un poco 
más pequeños que los errores €;. Al dividir entre n — 2 en lugar de n se compensa aproxima- 
damente este efecto. 
Hay una fórmula equivalente para s, que implica el coeficiente de correlación r, que es 
con frecuencia más fácil calcular. 


Hs ==" 

n-=2 
Se presenta una deducción breve de este resultado. La ecuación (7.21) (de la sección 7.2) mues- 
tra que 1 — =D jar 0, 99 / Liz1 01 — YY. Entonces Dj=1 (=$) = (1 — 1) ir Or 


= yY, y se tiene que 


(7.32) 


2 EAN _ NY 
n-2 n-2 
Bajo los supuestos 1 a 4, las observaciones y, son también variables aleatorias. Efectivamen- 
te, puesto que y, = fp + fx; + €, en consecuencia y; tiene una distribución normal con me- 
dia B, + 6;,x, y la varianza 0”. En particular, $, representa el cambio en la media de y asociada 
con un aumento de una unidad en el valor de x. 


En el modelo lineal y, = f, + fx, + €;, bajo los supuestos del 1 al 4, las observacio- 
nes y;, . . . , y, Son variables aleatorias independientes que siguen la distribución nor- 
mal. La media y la varianza de y, están dadas por 


My, Bo + Bix; 


AE 
E, =u 

La pendiente f, representa el cambio en la media de y asociada con un aumento de 
una unidad en el valor de x. 
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Ahora se pueden calcular las medias y las desviaciones estándar de Bo y $. Las des- 
viaciones estándar son, por supuesto, las incertidumbres. Tanto Ba como $, se pueden expre- 
sar como combinaciones lineales de las y;, por lo que sus medias se pueden determinar 
mediante la ecuación (2.49) y sus desviaciones estándar se determinan con la ecuación (2.53) 
(ambas ecuaciones de la sección 2.5). Específicamente, al manipular en forma algebraica las 
ecuaciones (7.13) y (7.14) (en la sección 7.2) se obtiene 


A EN 

pe 2. al Él (7.33) 
A _ de 1 0 x(Xxi — x) 

o a F Nim Ci a (7.34) 


Utilizando el hecho de que cada una de las y, tiene una media f, + fx, y una varianza o”, de 
las ecuaciones (2.49) y (2.53) se obtienen los siguientes resultados, después de mucha mani- 
pulación: 


Bo = Bo mp, = Bi 


a 


1 XxX 
4 /=+ <= = 1 = == 
E Aa? ús a (=P 


Los estimadores $B oy $b ¡ ho tienen sesgo, ya que sus medias son iguales a los valores verdade- 
ros. También están distribuidos normalmente, porque son combinaciones lineales de las varia- 
bles aleatorias normales independientes y;,. En la práctica, cuando se calculan las desviaciones 
estándar, por lo general no se conoce el valor de O, por eso no se aproxima con s. 


Bajo los supuestos 1 al 4 (p. 508), 


Las cantidades 8, y $, son variables aleatorias normalmente distribuidas. 


Las medias de Bo y B ¡ Son los valores verdaderos fy y fB,, respectivamente. 


Las desviaciones estándar de B, y f, se calculan con 


Sp, = ata +5m An y (7.35) 


Ss 


=D -» 


dl — r7) NN -104 - yy? 
n-=2 


(7.36) 


donde s = representa un estimador de la desviación están- 


dar del error O. 
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Para los datos de la ley de Hooke, calcule s, sg, y sg, Estime la constante del resorte y la lon- 
gitud sin carga, y determine sus incertidumbres. 


Solución 

En el ejemplo 7.6 (en la sección 7.2) se calculó x = 1.9000, y = 5.3885, );-, (x, — 1) = 
26.6000, y D;-1 (4, — DO — Y) = 5.4430. Ahora calcule >>;-, (y, — y)? = 1.1733. La co- 
rrelación es r = 5.4430/4/26.6000)(1.1733) = 0.9743. 


(1 — 0.97432)(1.1733) 


Utilizando la ecuación (7.32), s = 18 = 0.0575. 
Utilizando 1 ión (7.35) 0.0575 s + 200 0.0248 
. sa, =0. ao =0. ; 
ilizando la ecuación , SB 20 * 26.6000 
.057 
Utilizando la ecuación (7.36), sa, = TA. = 0.0111. 


26.6000 


Los valores x más dispersos son mejores (dentro del razonamiento) 


En las expresiones para las dos incertidumbres sf, y sf, en las ecuaciones (7.35) y (7.36), la 
cantidad Y>;-¡ (x, — xy aparece en un denominador. Esta cantidad mide la dispersión de los 
valores x; cuando se divide por la constante n — 1, es exactamente la varianza muestral de 
los valores x. Como resultado, todas las otras cosas siguen igual, un experimento realizado 
con mayor dispersión de los valores x dará como resultado incertidumbres más pequeñas pa- 
ra Bo y B 15 y por tanto, una estimación más precisa de los valores verdaderos f, y fB,. Por su- 
puesto, es importante no utilizar los valores x tan grandes o tan pequeños que estén fuera del 
rango para el cual es legítimo el modelo lineal. 


Cuando se pueden elegir los valores x es mejor que estén muy dispersos. Entre más 

dispersos estén, más pequeñas serán las incertidumbres en f, y B¡. 
Específicamente, la incertidumbre cg, en f, es inversamente proporcional a 

V Y ¡1 (1; — X)?, o de manera equivalente, a la desviación estándar muestral de x;, 
Precaución: Si el rango de valores de x se extiende más allá del rango donde el 

modelo lineal es válido, los resultados no lo serán. 


Hay otras dos maneras de mejorar la exactitud de la recta estimada de regresión. Prime- 
ro, se puede aumentar el tamaño de la suma )>;_¡ (x, — x' tomando más observaciones; por 
consiguiente, sumando más términos a la suma. Y segundo, se puede reducir el tamaño de la va- 
rianza 0” del error, por ejemplo, midiendo con mayor precisión. Estos dos métodos comúnmen- 
te aumentan el costo del proyecto; sin embargo, si sólo se eligen valores de x más ampliamente 
dispersos con frecuencia no lo hacen. 


CAPÍTULO 7 Correlación y regresión lineal simple 


Dos ingenieros están realizando experimentos independientes para estimar una constante del 
resorte para un resorte dado. El primer ingeniero sugiere medir la longitud del resorte sin car- 
ga, y luego poner cargas de 1, 2, 3 y 4 lb. El segundo ingeniero sugiere utilizar cargas de O, 
2, 4, 6 y 8 lb. ¿Cuál resultado será más preciso? ¿Por qué factor? 


Solución 

La desviación estándar muestral de los números 0, 2, 4, 6, 8 es dos veces mayor que la de los 
números, O, 1, 2, 3, 4. Por tanto, la incertidumbre Cp, para el primer ingeniero es dos veces 
mayor que para el segundo, por lo que éste estima con una precisión del doble. 

Se han hecho dos supuestos en la solución para este ejemplo. Primero, se supuso que la 
varianza del error o? es la misma para ambos ingenieros. Si ambos están usando los mismos 
aparatos y el mismo procedimiento de medición, éste podría ser un supuesto seguro. Pero si 
un ingeniero puede medir con mayor precisión, se necesita considerar lo anterior. Segundo, 
se ha supuesto que una carga de 8 lb está dentro de la zona elástica del resorte, por lo que el 
modelo lineal es aplicable en todo el rango de los datos. 


Inferencias acerca de la pendiente y del intercepto 


Dado un diagrama de dispersión con puntos (xy, y¡), . - - » (X,, y»), se puede calcular la pen- 
diente, B ¡ y el intercepto $B o de la recta de mínimos cuadrados. Se considera que éstos son los 
estimadores de una pendiente verdadera $, e intercepto fj,. Ahora se explicará cómo usar es- 
tos estimadores para determinar intervalos de confianza y realizar pruebas de hipótesis res- 
pecto de los valores verdaderos $, y Bj. Los métodos presentados para una media poblacional, 
basados en la distribución £ de Student, se pueden adaptar fácilmente para este propósito. 

Se ha visto que bajo los supuestos 1 al 4, Bo y B ¡ con medias f, y fB,, y desviaciones 
estándar que se han estimado por sp, y sg. Las cantidades Bo — Bo)/sp, y (4 1 — Bi)/sp, tie- 
nen distribuciones f de Student con n — 2 grados de libertad. El número de grados de liber- 
tad es n — 2 porque en el cálculo de sg, y sg, se divide la suma de los residuos al cuadrado 
entre n — 2. Cuando el tamaño muestral n es lo suficientemente grande, la distribución nor- 
mal es casi indistinguible de la £ de Student y se puede utilizar en su lugar. Sin embargo, la 
mayoría de los paquetes de programas computacionales usan la distribución £ de Student sin 
considerar el tamaño muestral. 


Bajo los supuestos 1 al 4, las cantidades tienen la distribución £ de 


Bo— Bo Bi— Br 
1 


. Po SP, 
Student con n — 2 grados de libertad. 


Los intervalos de confianza para B, y $B, se pueden deducir de la misma manera como 
los intervalos de confianza basados en la t de Student para una media poblacional. Sea f,._> ay 
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el punto en la curva £ de Student con n — 2 grados de libertad que le corresponde un área de 
0/2 en la cola derecha. 


Los intervalos con un nivel de confianza de 100(1 — 0)% para fp y Bf, están dados 
por 


pS 


Bo E tr-2a/2* SBo BE ta-20/2* SB, (7.37) 
donde 


1 se y s 
SP = 5 n — SB, = 17] E 
a n Y ¡106 a de dá Mes > 508 


Se ilustra el método anterior con algunos ejemplos. 


Determine un intervalo de confianza de 95% para la constante del resorte de los datos de la 
ley de Hooke. 


Solución 
La constante del resorte es B,. Se ha calculado antes que B 1 = 0.2046 (ejemplo 7.6 de la sec- 
ción 7.2) y sg, = 0.0111 (ejemplo 7.9). 

El número de grados de libertad es n — 2 = 20 — 2 = 18, por lo que el valor de £ para 
un intervalo de confianza de 95% es tig 925 = 2.101. Por tanto, el intervalo de confianza pa- 
ra fB, es 


0.2046 = (2.101)(0.0111) = 0.2046 + 0.0233 = (0.181, 0.228) 


Se tiene una confianza de 95% de que el aumento de la longitud del resorte dará como resul- 
tado un aumento de 1 Ib en la carga que se encuentra entre 0.181 y 0.228 pulg. Por supuesto, 
este intervalo de confianza es válido solamente dentro del rango de los datos (0 a 3.8 lb). 


En los datos de la ley de Hooke determine un intervalo de confianza de 99% para la longitud 
del resorte no cargado. 


Solución 
La longitud no cargada del resorte es fB,. Se ha calculado Bo = 4.9997 (ejemplo 7.6) y sp, = 
0.0248 (ejemplo 7.9). 

El número de grados de libertad es n — 2 = 20 — 2 = 18, por lo que el valor de £ para un 
intervalo de confianza de 99% es t¡g, 005 = 2.878. Por tanto, el intervalo de confianza para f, es 


4.9997 + (2.878)(0.0248) = 4.9997 + 0.0714 = (4.928, 5.071) 


Se tiene confianza de 99% de que la longitud del resorte no cargado se encuentra entre 4.928 
y 5.071 pulg. 


También se pueden realizar pruebas de hipótesis sobre fB, y $. Se presentan algunos ejemplos. 
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El fabricante del resorte de los datos de la ley de Hooke afirma que la constante del resorte 6, 
es de al menos 0.23 pulg/lb. Se ha calculado que la constante del resorte es $, = 0.2046 
pulg/lb. ¿Se puede concluir que la afirmación del fabricante es falsa? 


Solución 
Esto último requiere de una prueba de hipótesis. Las hipótesis nula y alternativa son 


H,:fP,|=0.23 contra H,:f¡<0.23 


La cantidad 


Bi —Ba 
SB 
tiene la distribución £ de Student con n — 2 =20 — 2 = 18 grados de libertad. Bajo H, se tie- 
ne que f, = 0.23. Por tanto, el estadístico de prueba es, 


A 


= 0.23 


5 
que se ha calculado anteriormente $b ¡ = 0.2046 y sg, = 0.0248. Por tanto, el valor del esta- 
dístico de prueba es 


0.2046 — 0.23 
0.0248 


Al consultar la tabla £ de Student se encuentra que el P-valor se encuentra entre 0.10 y 0.25. 
No se puede rechazar la afirmación del fabricante con base en estos datos. 


1.024 


La hipótesis nula más comúnmente probada es A, : B, = 0. Si esta hipótesis es verda- 
dera, entonces no hay ninguna tendencia de que y aumente o disminuya cuando x aumenta. 
Esto implica que x y y no tienen ninguna relación lineal. En general, si la hipótesis de que 6, 
= O no es rechazada, no se debe utilizar el modelo lineal para pronosticar y a partir de x. 


La capacidad de una unión soldada de elongarse bajo tensión está afectada por el compuesto 
químico del metal de soldadura. En un experimento para determinar el efecto del contenido 
de carbono (x) sobre la elongación (y) se elongaron 39 soldaduras hasta la fractura, y se mi- 
dió tanto el contenido de carbono (en partes por mil) como la elongación (en %). Se calcula- 
ron los siguientes resúmenes estadísticos: 


Y íx —x) =0.6561 S xi 1) — Y) =-3.9097  s=4.3319 
¡=1 ¡=1 

Suponiendo que x y y siguen un modelo lineal, calcule el cambio estimado en la elongación 
debido a un aumento de una parte por mil en el contenido de carbono. ¿Se debe utilizar el mo- 
delo lineal para pronosticar la elongación del contenido de carbono? 


7.3  Incertidumbres en los coeficientes de mínimos cuadrados 515 


Solución 
El modelo lineal es y = f, + fB¡x + €, y el cambio en la elongación (y) debido a una parte por 
mil aumentada en el contenido de carbono (x) es fB,. Las hipótesis nula y alternativa son 


H.:P|=0 contra H,:B,%0 


La hipótesis nula establece que incrementar el contenido de carbono no afecta la elongación, 
mientras que la hipótesis alternativa establece que lo hace. La cantidad 


Bi —Bi 
SB 
tiene la distribución £ de Student con n — 2 = 39 — 2 = 37 grados de libertad. Bajo Hp, Bi 
= 0. Por tanto, el estadístico de prueba es 


PB1=0 


sp, 


Se calculan B, y SA: 


10 017) _ 3.9097 _ 


E 5.959 
(xx? 0.6561 


Pr == 


N) 


$. = === = 5.348 


Bi ¿Dn (Qe; — xy? 
El valor del estadístico de prueba es 


cd, =-1.114 
5.348 


La tabla £ muestra que el P-valor es mayor a 0.20. No se puede concluir que el modelo lineal 
sea útil para pronosticar la elongación a partir del contenido de carbono. 


Inferencias sobre la respuesta media 


En el ejemplo 7.8 (sección 7.2) se calculó que la longitud de un resorte bajo una carga de 
1.4 lb era de 5.29 pulg. Debido a que esta estimación estaba basada en mediciones sujetas a 
la incertidumbre, la estimación en sí misma está sujeta a la incertidumbre. Para que la estima- 
ción sea más útil, se debe construir un intervalo de confianza alrededor de ésta con el propó- 
sito de reflejar su incertidumbre. Ahora se describe cómo hacer esto para el caso general 
donde la carga sobre el resorte es x lb. 

Si se hubiera tomado una medición de la longitud y del resorte bajo una carga de x li- 
bras, la media de y sería la longitud verdadera (o “respuesta media”) f, + fx, donde 6; es la 
constante del resorte verdadera y fj, es la longitud sin carga verdadera del resorte. Calcula- 
mos esta longitud con Y = E, + B ¡x. Puesto que Bo y B ¡ están distribuidos por lo general con 
medias 6, y f,, respectivamente, por lo cual $ de manera habitual está distribuido con media 
Bo + Bix. 

Al utilizar Y para determinar un intervalo de confianza se debe conocer su desviación 
estándar. Esta última se obtiene mediante Y$ como una combinación lineal de los y, y utilizan- 
do la ecuación (2.53) (en la sección 2.5). Las ecuaciones (7.33) y (7.34) expresan Ba y Bo co- 
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mo combinaciones lineales de las y, Puesto que $ = By + fx, estas ecuaciones, después de 
algunas manipulaciones algebraicas, se tiene que 


n 


a 1 5 Xi — Xx ] 
y= 2, F FED |» (7.38) 


Ahora se puede usar la ecuación (2.53) para obtener una expresión por la desviación estándar 
pS z . 2 PES 

de $. Aquélla depende del error de varianza O”. Puesto que en la práctica no se conoce por lo 

general el valor de O, se aproxima con s. La desviación estándar de $ es aproximada por 


A E (x — xy? 
E (7.39) 


La cantidad [$ — (By + B¡x)1/5; tiene una distribución £ de Student con n — 2 grados de li- 
bertad. Ahora se puede proporcionar la expresión para un intervalo de confianza destinado a 
la respuesta media. 


Un intervalo con un nivel de confianza de 100(1 — 0% para la cantidad f, + fx es- 
tá dado por 


Bo+Bix E tu-20/2 * $5 (7.40) 


(a — xy? 


1 
donde $; = mE ar NE? 


Mediante los datos de la ley de Hooke calcule un intervalo de confianza de 95% para la lon- 
gitud de un resorte bajo una carga de 1.4 lb. 


Solución 

Se calculará 9, Sy, Bi y B 1 y se utilizará la expresión (7.40). El número de puntos es n = 20. 
En el ejemplo 7.9 se calculó s = 0.0575. En el ejemplo 7.6 (de la sección 7.2) se calculó a x = 
1.9, i=1 (A — xy” = 26.6, A = 0.2046 y Bo = 4,9997, Utilizando x = 1.4, ahora se calcula 


$ =B,+ $, = 4.9997 + (0.2046)(1.4) = 5.286 
Utilizando la ecuación (7.39) con x = 1.4 se obtiene 


s=0.05751/2 En AA = 0.0140 
yo 20 TT 


El número de grados de libertad es n — 2 = 20 — 2 = 18. Se encuentra que el valor de f es 
tis, 025 = 2.101. Sustituyendo en la ecuación (7.40) se determina el intervalo de confianza de 
95% para la longitud f, + f$,(1.4) de 


5.286 + (2.101)(0.0140) = 5.286 + 0.0294 = (5.26, 5.32) 
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En un estudio de la relación entre el contenido de oxígeno (x) y fuerza de prueba final (y) de 
soldaduras se obtuvieron los datos que se presentan en la tabla siguiente para 29 soldaduras. 
Aquí el contenido de oxígeno se mide en partes por mil, y la fuerza se mide en ksi. Utilizan- 
do un modelo lineal, determine un intervalo de confianza de 95% para la media de la fuerza 
de las soldaduras con contenido de oxígeno de 1.7 partes por mil. (Del artículo “Advances in 
Oxygen Equivalence Equations for Predicting the Properties of Titanium Welds”, D. Harwig, 
W. Ittiwattana y H. Castner, en The Welding Journal, 2001:126s—136s.) 


Contenido Contenido Contenido 

de oxígeno Fuerza de oxígeno Fuerza de oxígeno Fuerza 
1.08 63.00 1.16 68.00 1.17 73.00 
1.19 76.00 1.32 79.67 1.40 81.00 
1.57 66.33 1.61 71.00 1.69 75.00 
1.72 79.67 1.70 81.00 1.71 19.33 
1.80 72.50 1.69 68.65 1.63 73.70 
1.65 78.40 1.78 84.40 1.70 91.20 
1.50 72.00 1.50 75.05 1.60 79.55 
1.60 83.20 1.70 84.45 1.60 73.95 
1.20 71.85 1.30 70.25 1.30 66.05 
1.80 87.15 1.40 68.05 

Solución 


Se calculan las cantidades siguientes (se pueden utilizar las fórmulas para el cálculo de la p. 495): 


Y =1.51966 y=75.4966 Y) (x,-1)?=133770 Y (y, -y)?= 1304.23 


i=1 i=1 
S (xi Xx) —Y) =22.6377  Bo=49.77906  B,=16.9229  s=5.84090 
¡=1 
La estimación de la media de la fuerza para soldaduras con contenido de oxígeno de 1.7 es 


$ =B,+ $1(1.7) = 49.779 + (16.9229(1.7) = 78.5485 


La desviación estándar estimada de $ es 


1 + (x — xy? 
s5=" 7 —=12 
. n Dj (a — xy? 


1 1.7 =1:51 . 
= 5:840901/ =E di 
29 1.33770 


= 1.4163 


Hay n — 2 = 29 — 2 = 27 grados de libertad. Por tanto, el valor 1 es t,; y25 = 2.052. El in- 
tervalo de confianza de 95% es 


78.5485 + (2.0521(1.4163) = 78.5485 + 2.9062 = (75.64, 81.45) 
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Se pueden realizar pruebas de hipótesis sobre la respuesta media, utilizando una distri- 
bución £ de Student. A continuación se presenta un ejemplo. 


Con referencia al ejemplo 7.15, sea uy la longitud verdadera del resorte bajo una carga de 
1.6 lb. Pruebe la hipótesis Ay : My € 5.3 contra H, : Uy > 5.3. 


Solución 
Ya que uy es la longitud verdadera del resorte bajo una carga de 1.6 lb, y = f, + Bf, (1.6). 
Ahora sea $ = By + $,(1.6). La cantidad 


y — [Bo + B1(1.6)] _ Y — Ho 


s5 S5 


tiene la distribución £ de Student con n — 2 = 18 grados de libertad. Bajo H, se tiene que uy 
= 5.3. Por tanto, el estadístico de prueba es 


>= 


S5 


Se calculan Y y sy: 


5 = Bo +81(1.6) = 4.9997 + (0.2046)(1.6) = 5.3271 


(16-197 
ES 0.0575y/ = 0.0133 
3 20 * —26.6000 


El valor del estadístico de prueba es 


3.3271.=.5,3 


= 2.04 
0.0133 0 


El P-valor se encuentra entre 0.025 y 0.05. Es razonable concluir que la longitud verdadera 
es mayor a 5.3 pulg. 


Intervalos de predicción para futuras observaciones 


En el ejemplo 7.16 se encontró un intervalo de confianza para la media de la fuerza de solda- 
duras con contenido de oxígeno de 1.7 partes por mil. He aquí un escenario algo diferente: 
suponga que se desea pronosticar la fuerza de una soldadura dada cuyo contenido de oxíge- 
no es 1.7, en lugar de la media de la fuerza de todas estas soldaduras. 

Utilizando los valores calculados en el ejemplo 7.16, se pronostica que la fuerza de es- 
ta soldadura es Y = Bo + B,(17) = 49.7796 + (16.92291(1.7) = 78.5485. Este pronóstico 
es el mismo que la estimación de la media de la fuerza de todas las soldaduras con un conte- 
nido de oxígeno de 1.7. Ahora se quiere poner un intervalo alrededor de este pronóstico para 
indicar su incertidumbre. Con el propósito de calcular este intervalo de predicción es preci- 
so determinar la incertidumbre en el pronóstico. 

La media de la fuerza de las soldaduras con contenido de oxígeno de 1.7 es fi, + 
B, (1.7). La fuerza verdadera de una soldadura dada es igual a fB, + f, (1.7) + e, donde e re- 
presenta la diferencia aleatoria entre la fuerza de la soldadura dada y la media de la fuerza de 
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todas las soldaduras cuyo contenido de oxígeno es 1.7. El error en la predicción de la fuerza 
de una soldadura dada con $ representa el error de la predicción 


$ — [B, + BAD] — e (7.41) 


La incertidumbre en la predicción de la fuerza de la soldadura dada es la desviación estándar 
de este error de predicción. Se mostrará brevemente cómo calcular esta desviación estándar. 
La cantidad 6, + fB,(1.7) es constante y no afecta la desviación estándar. Las cantidades $ y 
e son independientes, ya que Y se calcula de los datos del ejemplo 7.16, mientras que e se apli- 
ca a una soldadura que no es parte de ese conjunto de datos. Ello da como resultado que la 
desviación estándar del error de la predicción (7.41) se aproxime por 


2 
Spred = y/55 + s? 


Utilizando la ecuación (7.39) al sustituir sz se obtiene 


(x — 1)? 


1 
di 1 = = 7.42 
Spred “y "o Ta ( ) 


Ahora se puede determinar la expresión apropiada para el intervalo de predicción. 


Un intervalo de predicción con un nivel de 100(1 — 0)% para la cantidad 6, + B,x 
está dado por E 
Bo + /Hn3s SE ln—2,0/2 * Spred (7.43) 


1 (a — xy? 
donde Spred = 1 = —. 
onde Spred «y A 


Observe que el intervalo de predicción es más amplio que el de confianza, porque el va- 
lor 1 se suma a la cantidad bajo la raíz cuadrada para considerar la incertidumbre adicional. 


Para los datos de la soldadura del ejemplo 7.16, determine un intervalo de predicción de 95% 
para la fuerza de una soldadura específica cuyo contenido de oxígeno es 1.7 partes por mil. 


Solución 

La fuerza pronosticada es $ = By + $, (1.7), que se calculó en el ejemplo 7.16 de 78.5485. 
Utilizando las cantidades que se presentan en el ejemplo 7.16, se calculó el valor de syreg 

de 


1 (1.7-1.51966)? 
red = % 4 1 =00. 1 2 
Spred = 5.8 090/ + 20 == 133770 6.010 


Hay n — 2 = 29 — 2 = 27 grados de libertad. El valor de f es, por tanto, t27 025 = 2.052. Por 
tanto, el intervalo de predicción de 95% es 


78.5485 + (2.052)(6.0102) = 78.5485 + 12.3329 = (66.22, 90.88) 
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CAPÍTULO 7 Correlación y regresión lineal simple 


Tanto los intervalos de confianza como los intervalos de predicción que se han descri- 
to corresponden a un valor específico de x. En los ejemplos 7.16 y 7.18 se tomó x = 1.7. Al 
calcular los intervalos para muchos valores de x y conectar los puntos con una curva suave, 
se obtienen las bandas de confianza o bandas de predicción, respectivamente. La figura 
7.13 muestra las bandas de confianza de 95% y bandas de predicción para los datos de la sol- 
dadura presentados en el ejemplo 7.16. Para cualquier contenido de oxígeno dado, las bandas 
de confianza de 95% y las de predicción se pueden leer de la figura. 


T T T T T T T 100 T T T T T T T T 
: 4 39 
. E 
pa . p ES 3 
. a e "3 80 
A E 
. TuanattE z 8 
A E 
ira 5 E 
¡zan . e . 3 
E . a E 
7 ”P060 
! 1 1 1 1 1 í 50) ! 1 ] 1 ! 1 ] 1 
12 13 14 15 16 17 18 19 1. 11 12 13 14 15 16 17 18 19 
Contenido de oxígeno (partes por mil) Contenido de oxígeno (partes por mil) 
a) b) 


FIGURA 7.13 Contenido de oxígeno contra la última fuerza probada para 29 soldaduras. En ambas figuras, la recta puntea- 
da representa la recta de mínimos cuadrados. a) Las dos curvas sólidas son las bandas de confianza de 95%. Dado cualquier 
contenido de oxígeno, se tiene una confianza de 95% de que la media de la fuerza para soldaduras con ese contenido de oxí- 
geno se encuentre entre los límites de confianza superior e inferior. b) Las dos curvas sólidas son las bandas de predicción de 
95%. Dada cualquier soldadura específica, se tiene una confianza de 95% de que la fuerza para esa soldadura específica se 
encuentre entre los límites de predicción superior e inferior correspondiendo al contenido de oxígeno de esa soldadura. 


Las bandas de confianza y de predicción proporcionan una presentación visual agrada- 
ble de la forma en que la incertidumbre depende del valor de la variable independiente. Ob- 
serve que tanto el intervalo de confianza como el de predicción son más angostos cuando x = 
x , y aumentan el ancho conforme x se aleja de x. Esto último se debe al término (x — xy que 
aparece en el numerador en las expresiones para sz y Spres- Se concluye que las predicciones 
basadas en la recta de mínimos cuadrados son más precisas cerca del centro del diagrama 
de dispersión y lo son menos cerca de los extremos. 

Observe que las bandas de confianza indican intervalos de confianza para valores indi- 
viduales de x. No proporcionan una región de confianza para la recta verdadera y = f, + Bix. 
En otras palabras, no se puede tener una confianza de 95% de que la recta verdadera se en- 
cuentre en las bandas de confianza de 95%. 


Interpretación de los resultados de computadora 

En la actualidad, los cálculos de mínimos cuadrados usualmente se hacen en una computado- 
ra empleando un software como MINITAB. El siguiente resultado de MINITAB corresponde 
a los datos de la ley de Hooke. 
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Regression Analysis: Length versus Weight 


The regression equation is 
Length = 5.00 + 0.205 Weight (1) 


Predictor Coef (2) SE Coef (3) T (4) P (5) 
Constant 4.99971 0.02477 201.81 0.000 
eight 0.20462 0.01115 18.36 0.000 
S = 0.05749 (6) R-Sq = 94.9% (7) R-Sqladj) = 94.6% 


Analysis of Variance (8) 


Source DF SS MS F Pp 
Regression 1 1.1138 1.1138 337.02 0.000 
Residual Error 18 0.0595 0.0033 

Total 19 1.1733 


Unusual Observations (9) 


Obs Weight Length Fit SE FTE Residual St Resid 
12 2.20 5.5700 5.4499 0.0133 0.1201 2.15R 


R denotes an observation with a large standardized residual 


Predicted Values for New Observations (10) 


New Obs FILE “SEEN 95.0% CI 95.0% PI 
1 5.2453 0.0150  ( 5.2137, 5.2769) ( 5.1204, 5.3701) 


Values of Predictors for New Observations (11) 


New Obs Weight 
1 1.20 


Ahora se explicarán las cantidades etiquetadas en el resultado: 


(1) Es la ecuación de la recta de mínimos cuadrados. 

(2) Coef: los coeficientes $, = 4.99971 y $, = 0.20462. 

(3) SE Coef: las desviaciones estándar sg, y sg, (“SE” significa el error estándar, otro térmi- 
no por la desviación estándar.) 

(4) T: los valores de los estadísticos £ de Student para probar las hipótesis f, = 0 y PB, = 0. 
El estadístico f es igual al coeficiente dividido entre su desviación estándar. 

(5) P: Los P-valores para las pruebas de las hipótesis f, = 0 y f, = O. El P-valor más im- 
portante es el de f,. Si este P-valor no es lo suficientemente pequeño para rechazar la hi- 
pótesis de que fB, = O, el modelo lineal no es útil para predecir y a partir de x. En este 
ejemplo, los P-valores son extremadamente pequeños, indicando que 6, ni fB, son igua- 
les a 0. 
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(6) 
(7) 


(8) 


(9) 


S: la estimación s de la desviación estándar del error. 

R-Sq: éste es r, el cuadrado del coeficiente de correlación r, también llamado coeficien- 
te de determinación. 

Análisis de varianza: esta tabla no es tan importante en la regresión lineal simple cuando 
sólo hay una variable independiente. Es más importante en la regresión múltiple, donde 
hay algunas variables independientes. Sin embargo, es notable que los tres números de la 
columna etiquetada con “SS” son la suma de cuadrados de regresión > ;-, (9, — y, la 
suma de cuadrados del error »;-, (y, — $e y su suma, la suma total de cuadrados >>;-; 
=> 

Observaciones inusuales: aquí MINITAB trata de alertarlo acerca de los puntos de da- 
tos que pueden incumplir algunos de los supuestos del 1 al 4 analizados. MINITAB es 
conservador y con frecuencia lista varios de esos puntos, incluso cuando los datos están 
bien descritos con un modelo lineal. En la sección 7.4 se aprenderán algunos métodos 
gráficos para comprobar los supuestos del modelo lineal. 


(10) Valores predichos para las nuevas observaciones: éstos son los intervalos de confian- 


za y los de predicción para valores de x especificados por el usuario. Aquí se especifica 
x = 1.2 para el peso. El “Fit” es el valor ajustado Y = Bo a B,x y “SE Fit” es la desvia- 
ción estándar s;. Después se presentan los intervalos de confianza y de predicción del 
95%, respectivamente. 


(11) Valores de los indicadores para las nuevas observaciones: ésta es sólo una lista de los 


valores de x para los cuales se han calculado los intervalos de confianza y de predicción. 
Este muestra que estos intervalos se refieren a un peso de x = 1.2. 


Ejercicios para la sección 7.3 


1. Se está evaluado un nuevo resorte. Se han colgado veinticinco pesas x;, y se mide para cada una la longitud del resorte y,. Los 
pesos se miden en libras, y la longitud, en pulgadas. Se registró el siguiente resumen estadístico. 


25 
=240  y=12.18 Y — Xx) = 52.00 
i=1 


25 25 
So — y) = 498.96 NE - 2), — Y) = 160.27 


i=1 i=1 


Sea fp la longitud del resorte en reposo, y $, el aumento en la longitud ocasionado por una carga de 1 lb. Suponga que los su- 
puestos del 1 al 4 de la p. 508 son válidos. 


a) Calcule los estimadores de mínimos cuadrados Bo y B.. 


b) Calcule la estimación de la varianza del error s?. 


c) 
d) 


e) 


Determine los intervalos de confianza del 95% para f, y B;. 


El fabricante del resorte afirma que la constante del resorte no es mayor de 3 pulg/lb. ¿Los datos proporcionan evidencias 
suficientes para rechazar esta afirmación? 


También se afirma que la longitud sin carga del resorte es de al menos 5.5 pulg. ¿Los datos proporcionan pruebas suficien- 
tes para rechazar esta afirmación? 


Determine un intervalo de confianza de 99% para la longitud del resorte bajo una carga de 1.5 lb. 
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g) Determine un intervalo de predicción de 99% para la longitud medida del resorte bajo una carga de 1.5 lb. 


h) Cuál es más útil en este caso, ¿el intervalo de confianza o el intervalo de predicción? Explique. 


. Para muchos compuestos químicos, la cantidad que se disolverá en un volumen de agua específico depende de la temperatura. 
El siguiente resultado de MINITAB describe el ajuste de un modelo lineal y = ff, + fx + e que expresa el número de gra- 
mos de cierto compuesto químico disueltos por litro de agua (y) con respecto a la temperatura en *C de (x). Hay n = 6 obser- 
vaciones. 


Predictor Coef SE Coef T Pp 
Constant 1.4381 0.62459 2.30 0.083 
Temperature 0.30714 0.02063 14.9 0.000 


a) Hay n = 6 observaciones. ¿Cuántos grados de libertad hay para los estadísticos £ de Student? 

b) Determine un intervalo de confianza de 95% para Pi. 

c) Determine un intervalo de confianza de 95% para P,. 

d) Alguien afirma que si la temperatura del agua se aumentara en 19C, la media del número de gramos disueltos aumentará en 
exactamente 0.40. Utilice el resultado para realizar una prueba de hipótesis con el fin de determinar si esta afirmación pue- 
de ser rechazada. 

e) Alguien afirma que la media del número de gramos que se puede disolver en un litro de agua a OC es menor a 1.0. Utilice el 
resultado dado para realizar una prueba de hipótesis con el propósito de determinar si esta afirmación puede ser rechazada. 


. Los óxidos de nitrógeno (NO,) constituyen un componente muy importante de la contaminación atmosférica producida por ve- 
hículos automotores. En un estudio para determinar la relación entre la carga sobre un motor y la producción de NO,, un vehícu- 
lo fue manipulado en un laboratorio de prueba a diferentes velocidades. Se realizaron mediciones periódicas de los caballos de 
fuerza (x) y de las emisiones de NO, (y). Las emisiones de NO, se midieron en mg/s. El siguiente resultado de MINITAB des- 
cribe el ajuste de un modelo lineal con estos datos. Suponga que los supuestos del 1 al 4 de la p. 508 son válidos. 


The regression equation is 
Chassis NOx = 44.5 + 0.845 Chassis HP 


Predictor Coef SE Coef T Pp 
Constant 44.534 2.704 16.47 0.000 
Chassis HP 0.84451 0.03267 25.85 0.000 
S= 24.62 R-Sq = 84.7% R-Sqladj) = 84.5% 
Predicted Values for New Observations 

New Obs FTE SE Fit 95.0% Cl 95.0% PI 

1 78.31 Lea ( 73.89, 82.73) (29.37, 127.26) 


Values of Predictors for New Observations 


New Obs Chassis HP 
1 40.0 


a) ¿Cuáles son la pendiente y el intercepto de la recta de mínimos cuadrados? 

b) ¿El modelo lineal es útil para predecir las tasas de emisión de NO, a partir de los caballos de fuerza? Explique. 
c) Pronostique la tasa de emisión de NO, si el motor se detiene a los 10 caballos de fuerza. 

d) ¿Cuál es la correlación entre caballos de fuerza y tasa de emisiones de NO,? 


e) El resultado proporciona un intervalo de confianza de 95% para la media de la tasa de emisiones de NO, a 40 caballos de 
fuerza. Hay n = 123 observaciones en el conjunto de datos. Utilizando el valor “SE Fit”, determine un intervalo de con- 
fianza de 90%. 
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f) Alguien planea operar el motor a 40 caballos de fuerza, y predice que la tasa de emisiones de NO, será de 180 mg/s. ¿És- 
ta es una predicción razonable? Si es así, explique por qué. Si no, dé un rango razonable de valores predichos. 


4. En un experimento similar al del ejercicio 3, el motor se retira del chasis y se acciona. Se miden los caballos de fuerza y la ta- 
sa de emisión de NO,. A continuación se muestra el resultado de MINITAB. Suponga que los supuestos del 1 al 4 de la p. 508 
son válidos. 


The regression equation is 
Engine NOx = 33.0 + 0.753 Engine HP 


Predictor Coef SE Coef T Pp 
Constant 33.042 2.371 13.94 0.000 
Engine HP 0.75269 0.02912 25.85 0.000 
S = 22.79 R-Sq = 84.7% R-Sqladj) = 84.5% 


a) ¿Cuál es la pendiente de la recta de mínimos cuadrados? 
b) Hay 123 puntos en el conjunto de datos. Determine un intervalo de confianza de 95% para la pendiente. 


Cc) Realice una prueba con la hipótesis nula de que la pendiente es mayor que o igual a 0.8. ¿Cuál es el P-valor? 


5. Con referencia a los ejercicios 3 y 4, el ingeniero nota que la pendiente de la recta de mínimos cuadrados en el experimento 
descrito en el ejercicio 4 es menor que en el experimento descrito en el 3. Quiere probar la hipótesis de que el efecto de los ca- 
ballos de fuerza en la tasa de emisiones de NO, depende de si el motor está dentro o fuera del chasis. Sea fB¿ el aumento en la 
tasa de emisiones debido a un aumento de 1 hp con el motor dentro del chasis, y que f; denote el aumento correspondiente con 
el motor fuera del chasis. 


a) Exprese la hipótesis nula que debe probarse en función de B¿ y By. 


b) Sean Bo y Br las pendientes de las rectas de mínimos cuadrados. Suponga que estas pendientes son independientes. Hay 
123 observaciones en cada conjunto de datos. Pruebe la hipótesis nula en el inciso a). ¿Puede concluir que el efecto de los 
caballos de fuerza es diferente en los dos casos? 


6. El artículo “Withdrawal Strength of Threaded Nails” (D. Rammer, S. Winistorfer y D. Bender, en Journal of Structural Engi- 
neering 2001:442—449) describe un experimento para investigar la relación entre el diámetro de un clavo (x) y su fuerza reti- 
rada final (y). Se colocaron clavos de forma anular enhebrados en madera de abeto de Douglas, y después se midieron sus 
fuerzas de retirada en N/mm. Se obtuvieron los resultados siguientes para diez diámetros diferentes (en mm). 


2 | 2,32 2.87 3.05 3.43 3.68 3.76 3.76 4.50 4.50 5.26 
y | 54.74 5901 72.92 50.85 54.99 60.56 69.08 77.03 69.97 90.70 


a) Calcule la recta de mínimos cuadrados para predecir la fuerza a partir del diámetro. 

b) Calcule la estimación s de la desviación estándar del error. 

c) Calcule un intervalo de confianza de 95% para la pendiente. 

d) Determine un intervalo de confianza de 95% para la media de la fuerza de retirada de clavos de 4 mm de diámetro. 


e) ¿Puede concluir que la media de la fuerza de retirada de clavos de 4 mm de diámetro es mayor que 60 N/mm? Realice una 
prueba de hipótesis y reporte el P-valor. 


f) Determine un intervalo de predicción de 95% para la fuerza de retirada de un clavo especial cuyo diámetro es de 4 mm. 


7. En un estudio para determinar la relación entre la permeabilidad (en cm/m) y la resistencia eléctrica (en kQ - cm?) de piel hu- 
mana se reunieron los datos de la tabla siguiente. Suponga que los supuestos del 1 al 4 de la p. 508 son válidos. 
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Perm. Res. Perm. Res. Perm. Res. Perm. Res. 
1.39 0.90 1.08 1.35 1.53 0.94 1,357 0.72 
1.21 1.21 1.79 0.40 1.79 0.41 1.49 0.66 
1.58 0.65 1.54 0.80 1.45 0.82 1.68 0.67 
1.35 0.97 2.04 0.17 1.46 0.83 1.52 0.79 
1.76 0.40 1.51 0.94 1.47 0.79 1.29 0.96 
1.57 0.65 1.16 1.13 1.67 0.59 1.90 0.27 
1.32 0.95 1.71 0.57 1.81 0.47 1.10 1.28 
1.13 1:33 1.64 0.65 1.40 0.90 1.67 0.57 
1.70 0.44 1.67 0.62 1.82 0.37 1.66 0.54 
1.79 0.37 1.19 1.22 1.49 0.78 1.46 0.82 
1.09 1.34 1.56 0.78 1.23 1.01 1.85 0.40 
1.29 0.99 1.63 0.64 


10. 


11. 


12. 


a) Calcule la recta de mínimos cuadrados para pronosticar la permeabilidad (y) a partir de la resistencia (x). 
b) Calcule los intervalos de confianza de 95% para P, y P,. 
c) Pronostique la permeabilidad de la piel cuya resistencia es 1.7 k0. 


d) Determine un intervalo de confianza de 95% para la media de la permeabilidad para todas las muestras de piel con una re- 
sistencia de 1.7 kQ. 


e) Determine un intervalo de confianza de 95% para la permeabilidad de la piel cuya resistencia es 1.7 k0. 


. Tres ingenieros están calculando de manera independiente la constante de un resorte usando el modelo lineal especificado por la 


ley de Hooke. El ingeniero A mide la longitud del resorte bajo cargas de 0, 1, 3, 4 y 6 lb para un total de cinco mediciones. El in- 
geniero B utiliza las mismas cargas, pero repite el experimento dos veces para un total de diez mediciones independientes. El 
ingeniero C usa cargas de 0, 2, 6, 8 y 12 lb midiendo una vez para cada carga. Todos los ingenieros usan los mismos aparatos de 
medición y el mismo procedimiento. Cada ingeniero calcula un intervalo de confianza de 95% para la constante del resorte. 


a) Si el ancho del intervalo del ingeniero A se divide entre el ancho del intervalo del ingeniero B, el cociente será aproxima- 
damente 


b) Si el ancho del intervalo del ingeniero A se divide entre el ancho del intervalo del ingeniero C, el cociente será aproxima- 
damente 

c) Cada ingeniero calcula un intervalo de confianza de 95% para la longitud del resorte bajo una carga de 2.5 libras. ¿Cuál in- 
tervalo es probable que sea el más corto? ¿Cuál será el más largo? 


. En los datos de las soldaduras (ejemplo 7.16), imagine que los intervalos de confianza de 95% se calculan para la media de la 


fuerza de las soldaduras con contenido de oxígeno de 1.3, 1.5 y 1.8 partes por mil. ¿Cuál de los intervalos de confianza sería 
el más corto? ¿Cuál sería el más largo? 


Con referencia al ejercicio 1, si se construyen intervalos de confianza de 95% para la longitud del resorte con cargas de 2.15, 
2.57 y 2.45 libras, ¿qué intervalo de confianza sería el más corto? ¿Cuál sería el más largo? 


En un estudio de barras de cobre, la relación entre la tensión de corte en ksi (x) y la de corte en % (y) se resumió por la recta de 
mínimos cuadrados y = —20.00 + 2.56x. Había un total de n = 17 observaciones, y el coeficiente de la determinación era r? 
= 0.9111. Si la suma total de cuadrados fuera y O yy = 234.19, calcule la estimación de la varianza del error s?. 


En la fabricación de fibras sintéticas con frecuencia es “puesta” a temperaturas altas. El propósito es mejorar las propiedades 
de encogimiento de la fibra. En una prueba de 25 elementos de hilo, la relación entre la temperatura en *C (x) y el encogimien- 
to en % (y) se resumió mediante la recta de mínimos cuadrados y = —12.789 + 0.133x. La suma total de cuadrados fue 
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y O yy = 57.313, y la estimación de la varianza del error aproximadamente fue s” = 0.0670. Calcule el coeficiente de la 
determinación 7. 


13. En el siguiente resultado de MINITAB, algunos de los números han sido accidentalmente borrados. Calcúlelos de nuevo em- 


14. 


15. 


pleando los números aún disponibles. Hay n = 25 puntos en el conjunto de datos. 


The regression equation is 
Y = 1.71 + 4,27 X 


Predictor Coef SE Coef T Pp 
Constant 1.71348 6.69327 (a) (b) 
X 4.27473 (c) 3.768 (d) 


S = 0.05749 R-Sq = 38.2% 


En el siguiente resultado de MINITAB, algunos de los números han sido accidentalmente borrados. Calcúlelos otra vez apro- 
vechando los números aún disponibles. Hay n = 20 puntos en el conjunto de datos. 


Predictor Coef SE Coef T Pp 
Constant (a) 0.43309 0.688 (b) 
X 0.18917 0.065729 (c) (d) 


S = 0.67580 R-Sq = 31.0% 


Con la finalidad de aumentar la producción de pozos de gas, con frecuencia se usa un procedimiento conocido como “trata- 
miento de fractura”. Fracturar el fluido consiste en mezclarlo con arena y bombearla dentro del pozo. La siguiente figura pre- 
senta un diagrama de dispersión de la producción mensual contra el volumen del fluido fracturado bombeado para 255 pozos 
de gas. Tanto la producción como el fluido están expresados en unidades de volumen por pie de profundidad del pozo. La rec- 
ta de mínimos cuadrados está sobrepuesta. La ecuación de la recta de mínimos cuadrados es y = 106.11 + 0. 1119x. 
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a) De la recta de mínimos cuadrados, calcule la producción para un pozo en el cual se han bombeado 4 000 gal/pie. 
b) De la recta de mínimos cuadrados, calcule la producción para un pozo en el cual se han bombeado 500 gal/pie. 


c) Se ha excavado un nuevo pozo y se han bombeado 500 gal/pie. Con base en el diagrama de dispersión, ¿es más probable 
que la producción de este pozo se encontrará arriba o debajo de lo estimado con mínimos cuadrados? 


d) ¿Qué característica del diagrama de dispersión indica que no se cumple el supuesto 3 de la pág. 508? 
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7.4 Comprobación de supuestos y transformación de datos 


Los métodos que se han analizado hasta ahora son válidos bajo el supuesto de que la relación 
entre las variables x y y satisfacen el modelo lineal y, = Bj, + fix; + €;, donde los errores €; sa- 
tisfacen los supuestos 1 al 4. Estos supuestos se repiten aquí. 


Supuestos para los errores en los modelos lineales 

1. Los errores €, ...., €, son aleatorios e independientes. En particular, la magnitud 
de cualquier error e; no influye en el valor del siguiente error €; , ;. 

2. Todos los errores €, .. ., €, tienen media 0. 

3. Todos los errores €;,....., €, tienen la misma varianza, que se denota mediante e 
4. Los errores €;, ..., €, están distribuidos normalmente. 


Como ya se mencionó, el supuesto de normalidad (4) es menos importante cuando el 
tamaño de muestra es grande. Mientras que los incumplimientos moderados del supuesto de 
varianza constante (3) no importan demasiado, los graves se deben corregir. 

Se necesita algo para comprobar estos supuestos y asegurarse de que los métodos son 
adecuados. Han existido innumerables herramientas diagnósticas propuestas para este propó- 
sito. Se han escrito muchos libros sobre el tema. Aquí se restringirá a algunos de los procedi- 
mientos más básicos. 


La gráfica de residuos contra valores ajustados 


El mejor diagnóstico para la regresión de mínimos cuadrados es una gráfica de residuos e; 
contra valores ajustados $;, en ocasiones llamada gráfica de residuos. La figura 7.14 de la 
página 528 presenta esta gráfica para la estatura de Galton contra los datos de antebrazo (véa- 
se la figura 7.1 de la sección 7.1 para los datos originales). Por necesidad matemática, los re- 
siduos tienen media O, y también la correlación entre los residuos y los valores ajustados es 
O. Por tanto, la recta de mínimos cuadrados es horizontal, pasando a través del O sobre el eje 
vertical. Cuando el modelo lineal es válido, y se satisfacen los supuestos del 1 al 4, la gráfi- 
ca no indicará un patrón importante. No hay curva en la gráfica, y la dispersión vertical de los 
puntos no debe variar demasiado de la dispersión horizontal de la gráfica, excepto quizás cer- 
ca de los bordes. Estas condiciones están bien satisfechas para los datos de Galton. No exis- 
te razón para dudar de los supuestos del modelo lineal. 

Un poco de terminología: cuando la dispersión vertical en un diagrama de dispersión no 
varía demasiado, se dice que el diagrama de dispersión es homoscedástico. Lo contrario de 
homoscedástico es heteroscedástico. 

Una gráfica de residuos que se ve bien no prueba por sí misma que el modelo lineal es 
adecuado, porque los supuestos del modelo lineal pueden fallar de otras maneras. Por otra 
parte, una gráfica de residuos con un defecto serio indica claramente que el modelo lineal es 
inadecuado. 
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FIGURA 7.14 Gráfica de residuos (e;) contra valores ajustados ($);) para la estatura de 
Galton contra los datos del antebrazo. No hay ningún patrón importante en la gráfica, y la 
extensión vertical no varía demasiado, excepto quizás cerca de los bordes. Esto es consis- 
tente con los supuestos del modelo lineal. 


Si la gráfica de residuos contra valores ajustados 


El No muestra una tendencia importante de la curva, y 


m Es homoscedástica; es decir, la dispersión vertical no varía demasiado a lo largo 
de la longitud horizontal de la gráfica, excepto quizás cerca de los bordes, 


entonces es probable, pero no se tiene la seguridad, de que los supuestos del modelo 
lineal sean válidos. 

Sin embargo, si la gráfica de residuos sí muestra tendencia importante o se curva, 
o es heteroscedástica, se tiene la seguridad de que los supuestos del modelo lineal no 
son válidos. 


En muchos casos, la gráfica de los residuos presentará curvatura o heteroscedasticidad, 
ello indica el incumplimiento de los supuestos. Se presentarán tres ejemplos. Después se pre- 
sentará un método llamado transformación de variables, que algunas veces puede arreglar 
los incumplimientos de los supuestos y permite usar el modelo lineal. 


La figura 7.15 presenta una gráfica de las concentraciones de ozono atmosféricas contra con- 
centraciones de NO, medidas en 359 días en un año reciente cerca de Riverside, California. 
(NO, significa óxido de nitrógeno, y se refiere a la suma de NO y NO,.) Ambas concentracio- 
nes están medidas en partes por miles de millones (ppmm). Ahora esta gráfica es una gráfica 
de residuos. La gráfica es evidentemente heteroscedástica; es decir, la dispersión vertical va- 
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ría de manera considerable con el valor ajustado. Específicamente, cuando éste (la estimación 
de la concentración de ozono) es grande, el residuo tiende a estar más lejos de O. En virtud de 
que la magnitud de la dispersión en los residuos depende de la varianza del error o”, se con- 
cluye que la varianza del error es grande en días donde el valor ajustado también lo es. Ésta 
es una violación del supuesto 3, que establece que la varianza o? es igual para todas las ob- 
servaciones. La gráfica también contiene un dato atípico (donde la concentración de ozono 
está cerca de 100). La gráfica de residuos indica que no se debe usar este modelo lineal para 
predecir la concentración de ozono de la concentración de NO.. 
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FIGURA 7.15 a) Gráfica de la concentración de ozono contra la concentración de NO,. La recta de mínimos cuadrados 
está sobrepuesta. b) Gráfica de residuos (e,) contra valores ajustados ($);) para estos datos. La dispersión vertical aumenta 


evidentemente el valor ajustado. Esto último indica un incumplimiento del supuesto de la varianza del error constante. 


Ejemplo 


(Basado en el artículo “Advances in Oxygen Equivalence Equations for Predicting the Pro- 
perties of Titanium Welds,” D. Harwig, W. Ittiwattana y H. Castner, en The Welding Journal, 
2001: 1265-1365.) Las propiedades físicas de una soldadura están influenciadas por la com- 
posición química del material de la soldadura. Una medida de la composición química es el 
número de Ogden-Jaffe, que es una suma ponderada de los porcentajes de carbono, oxígeno 
y nitrógeno en la soldadura. En un estudio de 63 soldaduras, la dureza de la soldadura (medi- 
da en la escala de Rockwell B) se graficó contra el número de Ogden-Jaffe. En la figura 7.16 
de la página 530 se presenta la gráfica junto con otra de residuos. Esta última muestra un pa- 
trón con residuos positivos de la concentración en la parte central de la gráfica, y de residuos 
negativos en los extremos. Técnicamente, lo anterior indica que no todos los errores e, tienen 
una media de O. Esto por lo general ocurre por cualquiera de dos razones: ya sea que la rela- 
ción entre las variables no sea lineal, o que hay otras variables que se necesitan incluir en el 
modelo. Se concluye que no se debe usar este modelo para predecir la dureza de la soldadu- 
ra a partir del número de Ogden-Jaffe. 
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FIGURA 7.16 a) Gráfica de la dureza de Rockwell (B) contra el número de Ogden-Jaffe. La recta de mínimos cuadrados 
está sobrepuesta. b) Gráfica de residuos (e;) contra valores ajustados ($,) para estos datos. La gráfica de residuos muestra 
una tendencia, con residuos positivos en el centro y negativos en los extremos. 


Ejemplo 


Estos datos se presentaron en el ejercicio 15 en la sección 7.3. Para un grupo de 255 pozos de 
gas, la producción mensual por pie de profundidad del pozo está graficada contra el volumen 
de fluido fracturado bombeado en el pozo. Esta gráfica, junto con la de residuos, se presenta 
en la figura 7.17. Esta última es fuertemente heteroscedástica, lo que indica que la varianza 
del error es mayor para pozos de gas cuya estimación de la producción es mayor. Por supues- 
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FIGURA 7.17 a) Gráfica de la producción mensual contra volumen de fluido fracturado para 255 pozos de gas. b) Gráfi- 
ca de residuos (e) contra valores ajustados ($;) para los datos de los pozos de gas. La dispersión vertical aumenta con el va- 
lor ajustado. Esto último indica incumplimiento del supuesto de la varianza del error constante. 
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to, éstos son los pozos dentro de los cuales se ha bombeado mayor cantidad de fluido fractu- 
rado. Se concluye que no se debe utilizar este modelo para predecir la producción de los po- 
zos a partir de la cantidad de fluido fracturado bombeado. 


Transformación de variables 


Si se ajusta el modelo lineal y = f, + fB,x + e y se determina que la gráfica de residuos es 
heteroscedástica, o presenta una tendencia o patrón, a veces se puede arreglar el problema ele- 
vando x, y, o ambos a una potencia. Podría ser el caso de que un modelo de la forma y” = B, 
+ Bu? + e ajuste los datos bien. En general, sustituir una variable con una función de la mis- 
ma se llama transformación de la variable. Específicamente, elevar una variable a una po- 
tencia se llama transformación potencia. Tomar el logaritmo de una variable también se 
considera como transformación potencia, aunque el logaritmo no es una potencia. 

He aquí un ejemplo simple que muestra cómo funciona una transformación de poten- 
cia. La tabla siguiente presenta valores para las variables hipotéticas x, y, y y. 


x y y x y y 
1.0 2 4.84 11.0 31.5 992.25 
2.0 9.0 81.00 12.0 32.7 1 069.29 
3.0 13.5 182.25 13.0 34.9 1218.01 
4.0 17.0 289.00 14.0 36.3 1317.69 
5.0 20.5 420.25 15.0 37.7 1 421.29 
6.0 23:3 542.89 16.0 30,1 1 497.69 
7.0 25.2 635.04 17.0 40.0 1 600.00 
8.0 26.4 696.96 18.0 41.3 1 705.69 
9.0 27.6 761.76 19.0 42.5 1 806.25 
10.0 30.2 912.04 20.0 43.7 1 909.69 


El diagrama de dispersión de y contra x se presenta en la figura 7.18, junto con la gráfica de 
residuos. Evidentemente el modelo lineal no es adecuado. 
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FIGURA 7.18 a) Gráfica de y contra x con la recta de mínimos cuadrados sobrepuesta. b) Gráfica de residuos contra va- 
lores ajustados. Hay un fuerte patrón en la gráfica de residuos, lo que indica que el modelo lineal no es adecuado. 
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El modelo y = fB, + fix + e no ajusta los datos. Sin embargo, se puede solucionar es- 
te problema usando y” en lugar de y. La figura 7.19 presenta el diagrama de dispersión de y” 
contra x, junto con la gráfica de residuos. La gráfica de residuos es homoscedástica, sin ten- 
dencia o patrón perceptible. 
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FIGURA 7.19 a) Gráfica de y? contra x con la recta de mínimos cuadrados sobrepuesta. b) Gráfica de residuos contra va- 
lores ajustados. La gráfica de residuos es casi homoscedástica, sin tendencia o patrón perceptible. 


Se concluye que el modelo y? = fB, + fB,x + e es un modelo creíble para estos datos. 
En este ejemplo se transforma y, pero no se necesita transformar x. En otros casos, se puede 
transformar solamente x, o tanto x como y. 


Determinación de cuál transformación se debe aplicar 


Con la experiencia es posible observar un diagrama de dispersión, o una gráfica de residuos, y 
hacer un supuesto fundamentado respecto a cómo transformar las variables. También hay mé- 
todos matemáticos disponibles para determinar una buena transformación. Sin embargo, es sa- 
tisfactorio proceder por prueba y error. Intente varias potencias tanto para x como para y 
(incluyendo ln x y In y), observe las gráficas de residuos, y espere encontrar una que sea ho- 
moscedástica, sin patrón perceptible. Un análisis más avanzado de la selección de la transfor- 
mación se encuentra en Draper y Smith (1998). 


Las transformaciones no siempre funcionan 


Es importante recordar que las transformaciones de las potencias no siempre funcionan. A ve- 
ces ninguna de las gráficas de residuos parece buena, no importa qué transformaciones se prue- 
ben. En estos casos, se deben usar otros métodos. Uno de éstos es la regresión múltiple, que se 
analizará en el capítulo 8. Algunos otros se mencionan brevemente al final de esta sección. 
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Las gráficas de residuos con pocos puntos son difíciles de interpretar 


Cuando solamente hay algunos puntos en una gráfica de residuos, es difícil determinar si se 
satisfacen los supuestos del modelo lineal. A veces tal gráfica parecerá heteroscedástica o pre- 
sentar un patrón, pero con una inspección cercana se encontrará que esta impresión visual la 
causa la colocación de sólo uno o dos puntos. En ocasiones es difícil determinar si tal gráfi- 
ca contiene un dato atípico. Cuando uno se enfrenta a una gráfica de residuos dispersa difícil 
de interpretar es razonable ajustar un modelo lineal, pero considerando los resultados con cau- 
tela, en el entendido de que no se ha establecido la propiedad del modelo. Siempre y cuando 
se tengan más datos disponibles, se puede tomar una decisión fundamentada. Por supuesto, 
no todas las gráficas de residuos dispersas son difíciles de interpretar. Algunas veces hay un 
patrón obvio, que no se puede cambiar sólo por el corrimiento de uno o dos puntos. En estos 
casos no se debe usar el modelo lineal. 


Con referencia al ejemplo 7.19, la figura 7.15 presenta una gráfica de ozono contra concen- 
traciones de NO,. Se tiene que la transformación del ozono es su logaritmo natural, In ozono, 
produce una gráfica lineal satisfactoria. La figura 7.20 presenta el diagrama de dispersión de 
In ozono contra NO,, y la gráfica de residuos correspondiente. La gráfica de residuos es ho- 
moscedástica, sin patrón perceptible. El dato atípico que estaba presente en los datos origina- 
les es menos prominente. El modelo lineal se ve bien. 
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FIGURA 7.20 a) Gráfica del logaritmo natural de la concentración de ozono contra la concentración de NO,. La recta de 
mínimos cuadrados está sobrepuesta. b) Gráfica de residuos (e;) contra valores ajustados ($;) para estos datos. El modelo li- 
neal se ve bien. 
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El siguiente resultado de MINITAB corresponde a los datos transformados. 


Regression Analysis: LN OZONE versus NOx 


The regression equation is 
LN OZONE = 3.78 - 0.0101 NOx 


Predictor Coef SE Coef T Pp 
Constant 3.78238 0.05682 66.57 0.000 
0x -0.0100976 0.0009497 -10.63 0.000 
S= 0.5475 R-Sq = 24.1% R-Sqladj) = 23.8% 


Analysis of Variance 


Source DF SS MS F IS 
Regression 1 33.882 33.882 113.05 0.000 
Residual Error 357 106.996 0.300 

Total 358 140.878 


Predicted Values for New Observations 


New 0bs Fit SE Fit 95.0% CI 95.0% PI 
1 3.2715 0.0289 (3.2206, 3.3344)  ( 2.1994, 4.3556) 


Values of Predictors for New Observations 


New Obs NOx 
1 50.0 


El análisis de los datos transformados da resultados para el logaritmo natural de la con- 
centración de ozono. Para algunos propósitos se puede regresar a las unidades originales. Por 
ejemplo, se pueden utilizar los datos transformados con el fin de encontrar intervalos de pre- 
dicción para valores de ozono dando un valor particular de NO,. Con este propósito se usan 
los métodos de la sección 7.3 para encontrar el intervalo para In ozono, y después transfor- 
mar este intervalo de regreso a las unidades originales. El ejemplo 7.23 muestra cómo. 


Usando el resultado anterior de MINITAB, pronostique el nivel de ozono cuando el nivel de 
NO, es 50 ppmm, y determine un intervalo de predicción de 95% para el nivel de ozono en 
un día cuando el nivel de NO, es 50 pppm. 


Solución 

Sea y el nivel de ozono en un día cuando el nivel de NO, es 50 ppmm, y $ el valor pronosti- 
cado para ese nivel. Primero se calcula el valor de 1n $, que es el valor pronosticado para In 
ozono, utilizando los estimadores de los coeficientes del resultado de MINITAB. Para un va- 
lor de NO, de 50, la predicción es 


In $ = 3.78238 — 0.0100976(50) = 3.2775 
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Por tanto, el valor de ozono pronosticado es 


$ =p RS 


Se calcula un intervalo de predicción de 95% para el nivel de ozono y, se consulta el interva- 
lo de predicción para In y del resultado de MINITAB: 


2.1994 < In y < 4.3556 


Tomando exponenciales a toda la desigualdad se obtiene el intervalo de predicción de 95% 
para el nivel de ozono: 


2.1994 4.3556 
e <y<e 


9.02 < y < 77.91 


Es importante observar que el método utilizado en el ejemplo 7.23 funciona solamente 
para el intervalo de predicción. No funciona respecto del intervalo de confianza para la res- 
puesta media. Cuando la variable dependiente se ha transformado, no se puede obtener aquél 
en las unidades originales. 


Con referencia del ejemplo 7.20, la figura 7.16 presenta una gráfica de la dureza de Rockwell 
(B) contra el número de Ogden-Jaffe para un grupo de soldaduras. En este caso, al tomar el 
recíproco del número de Ogden-Jaffe (elevándolo a la potencia —1) se obtiene una relación 
casi lineal. La figura 7.21 presenta los resultados. Observe que, en este caso, se transforma la 
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FIGURA 7.21 a) Gráfica de la dureza contra (número de Ogden-Jaffe) '. La recta de mínimos cuadrados está sobrepuesta. 
b) Gráfica de residuos (e;) contra valores ajustados ($;) para estos datos. El modelo lineal queda bien. 
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variable independiente (x), mientras que en el ejemplo 7.22 se transforma la variable depen- 
diente (y). 


Con referencia al ejemplo 7.21, la figura 7.17 presentó una gráfica de la producción contra el 
volumen de fluido fracturado para 255 pozos de gas. Ésta presenta una relación casi lineal vá- 
lida entre el logaritmo de la producción y el del volumen del fluido fracturado. La figura 7.22 
presenta los resultados. Observe que en este caso ambas variables fueron transformadas. 
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FIGURA 7.22 a) Gráfica del logaritmo de la producción contra el logaritmo del volumen de fluido fracturado para 255 
pozos de gas, con la recta de mínimos cuadrados sobrepuesta. b) Gráfica de residuos contra valores ajustados. No hay pa- 
trón importante de los residuos. El modelo lineal queda bien. 


Datos atípicos y puntos influyentes 


Los datos atípicos son puntos separados del volumen de los datos. Tanto el diagrama de dis- 
persión como la gráfica de residuos se deben revisar para encontrar datos atípicos. Lo prime- 
ro respecto de un dato atípico es tratar de determinar por qué es diferente del resto de los 
puntos. A veces los datos atípicos los causan errores en el registro de datos o el funcionamien- 
to defectuoso del equipo. En estos casos, los datos atípicos se pueden eliminar del conjunto 
de datos. Pero muchas veces la causa no se puede determinar con seguridad en un dato atípi- 
co. Eliminar el dato atípico resulta poco inteligente, porque da como resultado una subesti- 
mación de la variabilidad del proceso que generó los datos. 

Con frecuencia los datos atípicos se pueden identificar mediante inspección visual. Mu- 
cho software enlista los puntos que tienen residuos inusualmente grandes; esta lista conten- 
drá la mayor parte de los datos atípicos (y a veces también de algunos puntos inocuos). A 
veces al transformar las variables se eliminarán los datos atípicos cambiándolos de lugar más 
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cerca de la mayor parte de los datos. Cuando las transformaciones no ayudan, y cuando no 
hay justificación para eliminar los datos atípicos, un enfoque conveniente es ajustar la recta 
para todo el conjunto de datos, y eliminar cada dato atípico en turno, ajustando la recta al con- 
junto de datos con un dato atípico eliminado. Si ninguno de los datos atípicos eliminados hace 
una notable diferencia a la recta de mínimos cuadrados o a las desviaciones estándar estima- 
das de la pendiente y del intercepto, entonces utilice el ajuste con los datos atípicos incluidos. 
Si uno o más de los datos atípicos hacen una diferencia cuando se eliminan, entonces se debe 
reportar el rango de valores para los coeficientes de mínimos cuadrados. En estos casos se de- 
ben evitar los cálculos de los intervalos de confianza o de los de predicción, o la realización 
de las pruebas de hipótesis. 

Un dato atípico que hace una diferencia considerable en la recta de mínimos cuadrados 
cuando se elimina se llama punto influyente. La figura 7.23 presenta un ejemplo de un dato 
atípico influyente, junto con uno que no es influyente. En general, los datos atípicos con va- 
lores de x inusuales tienen mayor probabilidad de ser influyentes que aquellos con valores de 
y inusuales, pero cada dato atípico se debe verificar. Mucho software identifica puntos poten- 
cialmente influyentes. Se puede encontrar más información acerca del tratamiento de datos 
atípicos y puntos influyentes en Draper y Smith (1998), Belsey, Kuh, Welsch (1980), y Cook 
y Weisberg (1994). 


y = —0.34 + 1.05x y = 20.22 + 1.06x y =0.97 + 0.70x 


a) b) c) 


FIGURA 7.23 a) Diagrama de dispersión sin datos atípicos. b) Se agrega un dato atípico a la gráfica. Hay poco cambio en 
la recta de mínimos cuadrados, por lo que este punto no es influyente. c) Se agrega un dato atípico a la gráfica. Hay un cam- 
bio considerable en la recta de mínimos cuadrados, por lo que este punto es influyente. 


Por último, se menciona que algunos escritores restringen la definición de datos atípi- 
cos a puntos con residuos inusualmente grandes. Según esta definición, un punto lejano de la 
mayor parte de los datos, aun cerca de la recta de mínimos cuadrados, no es un dato atípico. 
Ese punto podría ser o no influyente. 

El siguiente ejemplo caracteriza un conjunto de datos que contiene dos datos atípicos. 
En un estudio para determinar si la frecuencia de cierto gene mutante aumenta con la edad, se 
contó el número de genes mutantes en un microgramo de ADN para cada uno de 30 hombres. 
Dos de los hombres tenían recuentos sumamente grandes; sus puntos son datos atípicos. La 
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recta de mínimos cuadrados fue ajustada para los 30 puntos, para cada conjunto de 29 puntos 
obtenidos al eliminar un atípico, y después para los 28 puntos que quedaban después de eli- 
minar los dos datos atípicos. La figura 7.24 presenta diagramas de dispersión de frecuencia 
contra edad para todo el conjunto de datos y para los conjuntos con uno y con dos datos atí- 
picos eliminados. Las rectas de mínimos cuadrados están sobrepuestas. Con los datos atípi- 
cos incluidos, la ecuación de la recta de mínimos cuadrados es y = — 137.76 + 4.54x. Con 
los datos atípicos eliminados, la ecuación de la recta de mínimos cuadrados es y = 31.86 + 
1.23x. Estos resultados son bastante diferentes, por lo que ambos se deben notificar. 


*A 7 600 - 7 
y = 137.76 + 4.54x y = - 76.23 + 3.25x 
< < 500 FP =] 
Z Z 
[a A -B 
Es 2 400 + ] 
3 3 
a a 
$ g 300 Pp -] 
S 5 . . 
2 2 
o o 
a] a] 
E E 
> > 


50 60 70 80 90 40 50 60 70 80 90 
Edad (años) Edad (años) 
a) b) 
T T T T T T T T 
600 - SN y 600 Pp y 
y = 53.08 + 2.97x y=31.86 + 1.231 
< 500+p 4 < 500 P - 
Z Z 
A A 
Y 400b + Y 400 + z 
3 3 
A, A 
2 300+ 34 2 300 P y 
S . . 5 . . 
¿2 2 
E 3 20) E a 
=] = . A . 
> z A 
100 A 
de ES > A . .. 
0 E aj A ] | 
40 50 60 70 80 90 40 50 60 70 80 90 
Edad (años) Edad (años) 
Cc) d) 


FIGURA 7.24 Frecuencia de mutación contra la edad. a) La gráfica contiene dos datos atípicos, A y B. b) El dato atípico 
A se elimina. El cambio en la recta de mínimos cuadrados es perceptible, aunque no extremo; este punto es un poco influ- 
yente. c) El dato atípico B se elimina. El cambio en la recta de mínimos cuadrados es otra vez perceptible, pero no extre- 
mo; también este punto es poco influyente. Observe que el dato atípico B es un poco más influyente que el dato atípico A, 
aunque visualmente B está cerca de la mayor parte de los datos. d) Ambos datos atípicos son eliminados. El efecto combi- 
nado en la recta de mínimos cuadrados es importante. 
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Otros métodos para transformar variables 


Transformar variables no es el único método para analizar los datos cuando la gráfica de re- 
siduos indica un problema. Cuando ésta es heteroscedástica, algunas veces se utiliza una téc- 
nica llamada mínimos cuadrados ponderados. En este método, las coordenadas x y y de 
cada punto se multiplican por una cantidad conocida como peso. Los puntos en las regiones 
donde la dispersión vertical es grande se multiplican por pesos más pequeños, mientras que 
los puntos en regiones con dispersión vertical menor se multiplican por pesos más grandes. 
El efecto es lograr que los puntos cuya varianza del error es más pequeña tengan influencias 
mayores en el cálculo de la recta de mínimos cuadrados. 

Cuando la gráfica de residuos muestra una tendencia, indica que se necesita más de una 
variable independiente para explicar la variación en la variable dependiente. En estos casos se 
agregan más variables independientes al modelo, y se utiliza la regresión múltiple. Por últi- 
mo, algunas relaciones son inherentemente no lineales. En éstas se puede aplicar un método 
llamado regresión no lineal. La regresión múltiple se trata en el capítulo 8. Los otros dos mé- 
todos están más allá del alcance de este libro. Una buena referencia sobre estos temas es Dra- 
per y Smith (1998). 

Para resumir, en la figura 7.25 se presentan algunos ejemplos genéricos de gráficas de 
residuos. Para cada una se presentan un diagnóstico y una receta. 
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FIGURA 7.25 a) Ningún patrón importante, la gráfica es homoscedástica. El modelo lineal está bien. b) Heteroscedásti- 
ca. Pruebe una transformación de potencia. c) Tendencia perceptible de los residuos. Pruebe una transformación de poten- 
cia o utilice la regresión múltiple. d) Dato atípico. Examine el punto de datos infractor para ver si hay un error. Si no, calcule 
la recta de mínimos cuadrados tanto con y sin el dato atípico para ver si hay una diferencia perceptible. 
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Comprobación de independencia y normalidad 


Si la gráfica de residuos contra valores ajustados queda bien, podría ser aconsejable realizar 
diagnósticos adicionales para verificar más el ajuste del modelo lineal. En particular, cuando 
las observaciones ocurren en un orden de tiempo definido, es deseable graficar los residuos 
contra el orden con el cual las observaciones fueron hechas. Si hay tendencias en la gráfica, 
indica que la relación entre x y y puede estar variando con el tiempo. En estos casos una va- 
riable que representa el tiempo, u otras variables relacionadas con el tiempo, se deben incluir 
en el modelo como variables independientes adicionales, y se debe realizar una regresión 
múltiple. 

En los datos de contaminación del aire del ejemplo 7.19, con y representando la con- 
centración de ozono y x la concentración de NO,, la gráfica de residuos (figura 7.15) para el 
modelo ln y = 6, + fB,x + e es homoscedástica, sin patrón o tendencia perceptible. Se reu- 
nieron estos datos durante el transcurso de 359 días durante un año especial. La figura 7.26 
presenta la gráfica de residuos contra el tiempo para estos datos. Hay un patrón claro. Los re- 
siduos positivos en medio de los datos corresponden al verano, y los negativos en los extre- 
mos de los datos, al invierno. Cada residuo es igual al logaritmo de la concentración de ozono 
observada en ese día, menos el logaritmo del valor pronosticado por el modelo. Se concluye 
que los valores pronosticados por el modelo son demasiado bajos en verano y demasiado al- 
tos en invierno. Es obvio que conocer la época del año puede mejorar el pronóstico de la con- 
centración de ozono sobre el proporcionado por el modelo con la concentración de NO, como 
la única variable independiente. Por tanto, se ajustaría bien un modelo de regresión múltiple 
que contendría tanto al tiempo como al NO, como variables independientes. Dependiendo de 
los resultados de ese ajuste, se podrían hacer los ajustes adicionales al modelo. Estas ideas se- 
rán tratadas más profundamente en el capítulo 8. 
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FIGURA 7.26 Gráfica de residuos contra el orden de las observaciones (tiempo) para el ozono contra los datos de NO,. 
Se ajustó el modelo In ozono = f, + B¡NO, + e. Los residuos muestran un patrón claro con el tiempo que indica que se 
debe ajustar a un modelo de regresión múltiple, con el tiempo como una variable adicional. 


7.4 Comprobación de supuestos y transformación de datos 541 


A veces una gráfica de residuos contra el tiempo muestra que aquéllos oscilan con el 
tiempo. Esto último indica que el valor de cada error está influenciado por los errores en las 
observaciones anteriores, por lo que los errores no son independientes. Cuando esta caracte- 
rística es grave no se debe usar la regresión lineal, y en su lugar se deben usar los métodos de 
análisis de serie de tiempo. Una buena referencia sobre el análisis de serie de tiempo es 
Brockwell y Davis (2002). 

Para comprobar que los errores están normalmente distribuidos, se puede hacer una grá- 
fica de probabilidad normal de los residuos. Si esta última tiene bruscamente la apariencia de 
una línea recta, ello significa que los residuos están casi normalmente distribuidos. Puede ser una 
buena idea hacer una gráfica de probabilidad cuando se transforman las variables, ya que una se- 
ñal de una buena transformación es que los residuos estén casi normalmente distribuidos. Co- 
mo ya se mencionó, el supuesto de la normalidad no es tan importante cuando el número de 
puntos de datos es grande. Desafortunadamente, cuando el número de puntos de datos es pe- 
queño, puede ser difícil detectar las desviaciones de la normalidad. 


Modelos empíricos y leyes físicas 


¿Cómo se sabe si la relación entre dos variables es lineal? En algunos casos, las leyes físicas, co- 
mo la ley de Hooke, proporcionan la garantía de que un modelo lineal es correcto. En otros, 
como en la relación entre el logaritmo del volumen de fluido fracturado bombeado en un po- 
zo de gas y el logaritmo de su producción mensual, no existe una ley física conocida. En es- 
tos casos se utiliza un modelo lineal simplemente porque parece ajustarse a los datos del pozo. 
Un modelo que se elige porque parece ajustar a los datos, en ausencia de una teoría física, se 
llama modelo empírico. En la vida real, la mayoría de los análisis de datos están basados en 
modelos empíricos. Es menos frecuente cuando se aplica una ley física conocida. Por supues- 
to, muchas leyes físicas comenzaron como modelos empíricos. Si un modelo empírico se 
prueba en muchas ocasiones diferentes, bajo diversas circunstancias, y se encuentra que es vá- 
lido sin excepción, puede obtener el estatus de una ley física. 

Hay una diferencia importante entre la interpretación de los resultados basados en leyes 
físicas y la de los resultados basados en modelos empíricos. Una ley física se puede conside- 
rar verdadera, mientras que lo mejor que se puede esperar de un modelo empírico es que sea 
útil. Por ejemplo, en los datos de ley de Hooke se puede estar seguro que la relación entre la 
carga sobre el resorte y su longitud es realmente lineal. Se tiene la seguridad de que cuando 
se coloca otro peso en el resorte, la longitud del resorte se puede predecir con exactitud del 
modelo lineal. Por otro lado, para los datos del pozo de gas, mientras que la relación lineal 
describe los datos del pozo, no se puede asegurar que capta la verdadera relación entre el vo- 
lumen del fluido fracturado y la producción. 

He aquí un ejemplo simple que ilustra el punto. La figura 7.27 de la página 542 presen- 
ta 20 triángulos de formas diferentes. Suponga que no se conoce la fórmula para el área de un 
triángulo. Sin embargo, observe que los triángulos con perímetros mayores parecen tener 
áreas más grandes, así que se ajusta un modelo lineal: 


Área = B, + fB, (Perímetro) + e 
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El diagrama de dispersión del área contra el perímetro, con la recta de mínimos cuadrados so- 
brepuesta, se muestra a la derecha de la figura 7.27. La ecuación de la recta de mínimos cua- 
drados es 


Área = —1.232 + 1.373 (Perímetro) 


Las unidades en esta ecuación son arbitrarias. La correlación entre área y perímetro es r = 
0.88, que es fuertemente positiva. El modelo lineal parece ajustar bien. Se podría utilizar es- 
te modelo para predecir, por ejemplo, que un triángulo con perímetro igual a 5 tendrá una área 
de 5.633. 
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FIGURA 7.27 a) Veinte triángulos. b) Área contra perímetro para 20 triángulos. La correlación entre perímetro y área es 
0.88. 


Ahora aunque este modelo lineal podría ser útil, no es verdadero. El modelo lineal 
muestra que hay una fuerte tendencia de que triángulos con perímetros mayores tengan áreas 
más grandes. En ausencia de un mejor método, éste podría ser calcular algunas de las áreas de 
los triángulos. Pero no ayuda para mostrar el verdadero mecanismo detrás de la determina- 
ción del área. El mecanismo verdadero, por supuesto, está dado por la ley 


Área = 0.5 x base Xx altura 


Los resultados pronosticados por un modelo empírico podrían no ser válidos bajo la re- 
producción. Por ejemplo, un conjunto de triángulos podría estar diseñado de tal manera que 
algunos con perímetros mayores tuvieran áreas más pequeñas. En otro conjunto, el área po- 
dría parecer ser proporcional al cuadrado del perímetro, o su logaritmo. No se puede determi- 
nar con el análisis estadístico de los datos de los triángulos qué tan bien será aplicable el 
modelo empírico a un triángulo que aún no se observa. Determinar si es adecuado aplicar los 
resultados de un modelo empírico a las futuras observaciones es un tema de juicio científico 
más que estadístico. 
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mM Las leyes físicas son aplicables a todas las futuras observaciones. 

m Un modelo empírico es válido solamente para los datos a los que se ajusta. Esto 
último puede o no ser útil para predecir los resultados para las siguientes observa- 
ciones. 

E Determinar si se aplica un modelo empírico a una futura observación requiere jui- 
cio científico más que análisis estadístico. 


Ejercicios de la sección 7.4 


1. El siguiente resultado de MINITAB corresponde a la recta de mínimos cuadrados ln y = fj, + f; ln x + e, donde y represen- 
ta la producción mensual de un pozo de gas y x el volumen de fluido fracturado bombeado dentro. (Un diagrama de dispersión 
de estos datos se presentó en la figura 7.22.) 


Regression Analysis: LN PROD versus LN FLUID 


The regression equation is 


LN PROD = - 0.444 + 0.798 LN FLUID 

Predictor Coef SE Coef T Pp 
Constant -0.4442 0.5853 -0.76 0.449 

LN FLUID 0.79833 0.08010 9.97 0.000 

S= 0.7459 R-Sq = 28.2% R=Sqladj) = 27.9% 

Analysis of Variance 

Source DF SS MS E Pp 
Regression 1 55.268 55.268 99.34 0.000 
Residual Error 253 140.756 0.556 

Total 254 196.024 

Predicted Values for New Observations 

New Obs ETT SE Fit 95.0% Cl 95.0% PI 
1 5.4457 0.0473 (5.3526, 5.5389) ( 3.9738, 6.9176) 


Values of Predictors for New Observations 


New Obs LN FLUID 
1 7.3778 


a) ¿Cuál es la ecuación de la recta de mínimos cuadrados para pronosticar In y a partir de In x? 
b) Pronostique la producción de un pozo en el cual se han bombeado 2 500 gal/pie de fluido. 
c) Pronostique la producción de un pozo en el que se han bombeado 1 600 gal/pie de fluido. 


d) Determine un intervalo de predicción de 95% para la producción de un pozo en el que se han bombeado 1 600 gal/pie de 
fluido. (Vota: ln 1600 = 7.3778) 
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2. El procesamiento de carbón sin tratar implica el “lavado”, en donde se elimina la ceniza de carbón (no orgánico, material in- 
combustible). El artículo “Quantifying Sampling Precision for Coal Ash Using Gy”s Discrete Model of the Fundamental Error” 
(Journal of Coal Quality, 1989:33-39) proporciona los datos relacionados con los porcentajes de ceniza con el volumen de una 
partícula de carbón. Se midieron los porcentajes promedio de ceniza para seis volúmenes de partículas de carbón. Los datos 
son los siguientes: 


Volumen (cm?) 0.01 0.06 0.58 2.24 15.55 276.02 


Porcentaje de ceniza 3.32 4.05 5.69 7.06 8.17 9.36 


a) Calcule la recta de mínimos cuadrados para predecir el porcentaje de ceniza (y) a partir del volumen (x). Grafique los resi- 
duos contra los valores ajustados. ¿El modelo lineal parece adecuado? Explique. 


b) Calcule la recta de mínimos cuadrados para predecir el porcentaje de ceniza a partir del ln volumen. Grafique los residuos 
contra los valores ajustados. ¿El modelo lineal parece adecuado? Explique. 


c) Calcule la recta de mínimos cuadrados para predecir el porcentaje de ceniza a partir del volumen. Grafique los residuos 
contra los valores ajustados. ¿El modelo lineal parece adecuado? Explique. 


d) Utilizando el modelo más adecuado, pronostique el porcentaje de ceniza para partículas con un volumen de 50 m'. 


e) Utilizando el modelo más adecuado, construya un intervalo de confianza de 95% para la media de un porcentaje de ceniza 
para partículas con un volumen de 50 m'. 


3. Para determinar el efecto de la temperatura sobre la producción de cierto proceso químico, el proceso se opera 24 veces en di- 
ferentes temperaturas. La temperatura (en *C) y la producción (expresada como un porcentaje de un máximo teórico) para ca- 
da operación está dada en la tabla siguiente. Los resultados se presentan en el orden en el que se operaron, de los primeros a 
los últimos. 


Orden Temp Producción || Orden Temp Producción || Orden Temp Producción 
1 30 49.2 9 25 59.3 17 34 65.9 
2 32 39.3 10 38 64.5 18 43 75.2 
3 35 53.4 11 39 68.2 19 34 69.5 
4 39 59.9 12 30 53.0 20 41 80.8 
5 31 51.4 13 30 58.3 21 36 78.6 
6 27 32.1 14 39 64.3 22 37 71.2 
7 33 60.2 15 40 71.6 23 42 80.3 
8 34 60.5 16 +4 73.0 24 28 69.5 


a) Calcule la recta de mínimos cuadrados para predecir la producción (y) de temperatura (x). 
b) Grafique los residuos contra los valores ajustados. ¿El modelo lineal parece adecuado? Explique. 


c) Grafique los residuos contra el orden en el que se hicieron las observaciones. ¿Hay una tendencia en los residuos con el 
tiempo? ¿El modelo lineal parece adecuado? Explique. 


4. En una roca detonada con explosivos, la velocidad máxima de la partícula (VMP) depende de la distancia de la explosión y de 
la cantidad de carga. El artículo “Prediction of Particle Velocity Caused by Blasting for an Infrastructure Excavation Covering 
Granite Bedrock” (A. Kahriman, Mineral Resources Engineering, 2001:205-218) sugiere que predecir la VMP (y) a partir de 
la distancia escalada (x), que es igual a la distancia dividida entre la raíz cuadrada de la carga. Los resultados para 15 explosio- 
nes se presentan en la tabla siguiente. 
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VMP (mm/s) Distancia escalada (m/kg?*) 

1.4 47.33 

15.7 9.6 
2.54 15.8 
1.14 24.3 
0.889 23.0 
1.65 12.7 
1.4 39.3 

26.8 8.0 
1.02 29.94 
4.57 10.9 
6.6 8.63 
1.02 28.64 
3.94 18.21 
1.4 33.0 
1.4 34.0 


a) Grafique la VMP contra la distancia escalada. ¿La relación parece ser lineal? 


b) Calcule la recta de mínimos cuadrados para el modelo In VMP = B, + Bi In distancia escalada + e. Grafique los residuos 
contra los valores ajustados. ¿Este modelo lineal parece adecuado? 


c) Utilice la recta de mínimos cuadrados calculada en el inciso b) para predecir la VMP cuando la distancia escalada es 20. 
Determine un intervalo de predicción de 95%. 


. La buena previsión y el control de las actividades de preconstrucción conducen al uso más eficiente del tiempo y recursos en pro- 
yectos de construcción de autopistas. Los datos acerca de los costos de construcción (en miles de dólares) y las horas-persona de 
trabajo requeridas para varios proyectos se presentan en la tabla siguiente y fueron tomados del artículo “Forecasting Engineering 
Manpower Requirements for Highway Preconstruction Activities” (K. Persad, J. O'Connor, y K. Varghese, Journal of Management 
Engineering, 1995:41-47). Cada valor representa un promedio de algunos proyectos, y se han eliminado dos datos atípicos. 


Horas- Horas- 
persona (x) Costo (y) persona (x) Costo (y) 
939 251 1 069 399 
5796 4 690 6 945 5 253 
289 124 4 159 1177 
283 294 1266 802 
138 138 1 481 945 
2 698 1385 4716 2 327 
663 345 


a) Calcule la recta de mínimos cuadrados para predecir y a partir de x. 

b) Grafique los residuos contra los valores ajustados. ¿El modelo parece adecuado? 
c) Calcule la recta de mínimos cuadrados para predecir In y a partir de In x. 

d) Grafique los residuos contra los valores ajustados. ¿El modelo parece adecuado? 


e) Usando el modelo más adecuado, construya un intervalo de predicción de 95% para el costo de un proyecto que requiere 
mil horas-persona de trabajo. 


. El artículo “Oxidation State and Activities of Chromium Oxides in CaO-SiO,-CrO, Slag System” (Y. Xiao, L. Holappa y M. 
Reuter, Metallurgical and Materials Transactions B, 2002:595-603) presenta la cantidad x (en porcentaje molar) y el coefi- 
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ciente de actividad y de CrO, ; para varios elementos. Los datos, extraídos de una tabla más grande, se presentan en la tabla 


siguiente. 

x y x y x y 

10.20 2.6 7.13 5.8 3:33 13.1 
5.03 19.9 3.40 29.4 16.70 0.6 
8.84 0.8 5.57 2.2 139 2.2 
6.62 5.3 7.23 39 2.74 16.9 
2.89 20.3 2.12 33.1 2.58 33.3 
2.31 39.4 1.67 44.2 1.50 48.0 


a) Calcule la recta de mínimos cuadrados para predecir y a partir de x. 
b) Grafique los residuos contra los valores ajustados. 

c) Calcule la recta de mínimos cuadrados para predecir y a partir de 1/x. 
d) Grafique residuos contra valores ajustados. 


e) Usando la mejor línea ajustada, encuentre un intervalo de confianza de 95% para la media del valor de y cuando x = 5.0. 


7. Se utiliza un molino de viento para generar corriente continua. Se reúnen datos en 45 días diferentes para determinar la rela- 
ción entre la velocidad del viento en mi/h (x) y la corriente en kA (y). Los datos se presentan en la tabla siguiente. 


Velocidad Velocidad Velocidad 
Día del viento Corriente Día del viento Corriente Día del viento Corriente 
1 4.2 1.9 16 EN 2,1 31 2.6 1.4 
2 1.4 0.7 17 5.9 2.2 32 1 2.8 
3 6.6 ZiZ 18 6.0 2.6 33 6.1 2.4 
4 4.7 2.0 19 10.7 3.2 34 5.5 PEA 
5 2.6 1.1 20 3,3 2.3 35 4.7 2:3 
6 5.8 2.6 21 dl 1.9 36 4.0 2.0 
7 1.8 0.3 22 4.9 2.3 37 2.3 1.2 
8 5.8 2.3 23 8.3 3d 38 11.9 3.0 
9 eS. 2.6 24 7.1 2.3 39 8.6 2.5 
10 7.1 Zed 23 9.2 2.9 40 5.6 2.1 
11 6.4 2.4 26 4.4 1.8 41 4.2 1.7 
12 4.6 202 21 8.0 2.6 42 6.2 2 
13 1.6 1.1 28 10.5 3.0 43 17 2.6 
14 2.3 1.5 29 5.1 2,11 44 6.6 2.9 
15 4.2 1.5 30 5.8 2.9 45 6.9 2.6 


a) Calcule la recta de mínimos cuadrados para predecir y a partir de x. Realice una gráfica de residuos contra valores ajustados. 
b) Calcule la recta de mínimos cuadrados para predecir y a partir de ln x. Realice una gráfica de residuos contra valores ajustados. 
c) Calcule la recta de mínimos cuadrados para predecir In y a partir de x. Realice una gráfica de residuos contra valores ajustados. 
d) Calcule la recta de mínimos cuadrados para predecir Vy,a partir de x. Realice una gráfica de residuos contra valores ajustados. 
e) ¿Cuál de los cuatro modelos de la a) a la d) se ajusta mejor? Explique. 


f) Para el modelo que ajusta mejor, grafique los residuos contra el orden en el cual se realizaron las observaciones. ¿Los resi- 
duos parecen variar con el tiempo? 


g) Utilizando el mejor modelo, pronostique la corriente cuando la velocidad del viento es 5.0 mi/h. 


10. 
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h) Utilizando el mejor modelo, determine un intervalo de predicción de 95% para la corriente en una día específico cuando la 
velocidad del viento es 5.0 mi/h. 


. Dos detectores de radón se colocaron en ubicaciones diferentes en el sótano de una casa. Cada uno proporcionó mediciones ho- 


rarias de la concentración de radón, en unidades de pCi/L. Los datos se presentan en la tabla siguiente. 


R; Ra R; Ra R; R, R; R, 
12 19 3.4 2.0 4.0 2.6 5.5 3.6 
13 15 3.5 2.0 4.0 27 5.8 3.6 
13 16 3.6 2.1 43 2.7 5.9 3.9 
13 17 3.6 2.1 43 2.8 6.0 4.0 
15 17 2 2.1 4.4 2.9 6.0 42 
15 17 3.8 20 4.4 3.0 6.1 4.4 
16 18 3.8 2.2 47 3 6.2 4.4 
2.0 18 3.8 23 47 32 6.5 4.4 
2.0 1.9 3.9 as 4.8 33 6.6 4.4 
2.4 1.9 3.9 2.4 4.8 3.5 6.9 47 
2.9 1.9 3.9 2.4 4.9 23 7.0 4.8 
3.0 2.0 3.9 2.4 5.4 3.5 


a) Calcule la recta de mínimos cuadrados para predecir la concentración de radón en la posición 2 a partir de la concentración 
en la posición 1. 
b) Grafique los residuos contra los valores ajustados. ¿El modelo lineal parece adecuado? 


c) Divida los datos en dos grupos: los puntos donde R, < 4 en un grupo, donde R; = 4 en los demás. Calcule la recta de mí- 
nimos cuadrados y la gráfica de residuos para cada grupo. ¿La recta describe bien cualquier grupo? ¿Cuál? 


d) Explique por qué podría ser una buena idea ajustar un modelo lineal a una parte de estos datos, y un modelo no lineal a la otra. 


. El artículo “The Equilibrium Partitioning of Titanium Between Ti”? and Tit? Valency States in CaO-SiO,-TiO, Slags” (G. Tra- 


nell, O. Ostrovski y S. Jahanshahi, en Metallurgical and Materials Transactions B, 2002:61-66) analiza la relación entre el 
ds proporción de redox y la presión parcial de oxígeno py, en CaO-SiO,-TiO,. Algunas mediciones independientes 
del cociente redox se hicieron en cada uno de cinco presiones parciales diferentes: 10”, 10*, 109, 10 y 10? atmósfe- 
ras. Los resultados para las operaciones en 14% de la masa de TiO, se presentan en la tabla siguiente. 


Presión parcial 


de oxígeno Mediciones del cociente redox 
107 0.011, 0.017, 0.034, 0.039 
10 * 0.018, 0.011, 0.026, 0.050, 0.034, 0.068, 0.061 
10? 0.027, 0.038, 0.076, 0.088 
10 0.047, 0.069, 0.123, 0.162 
10 2 0.160, 0.220, 0.399, 0.469 


B 


a) Denotando el cociente redox por y y la presión parcial por x, la teoría establece que y debe ser proporcional a x” para algu- 


na f. Exprese esta relación teórica como un modelo lineal. 
b) Calcule la recta de mínimos cuadrados para este modelo lineal. Grafique los residuos contra los valores ajustados. ¿El mo- 


delo lineal es válido? 


. . a ds a , o a . 1/4 
c) Consideraciones teóricas adicionales sugieren que bajo las condiciones de este experimento, y debe ser proporcional ax”, 


¿los datos de la tabla anterior son consistentes con esta teoría? Explique. 


El artículo “The Selection of Yeast Strains for the Production of Premium Quality South African Brandy Base Products” (C. 
Steger y M. Lambrechts, en Journal of Industrial Microbiology and Biotechnology, 2000:431-440) se presenta información de- 
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11. 


12. 


13. 


tallada sobre la composición compuesta volátil de la base de vino realizada para cada una de 16 variedades de levadura selec- 
cionadas. Debajo están las concentraciones de ésteres totales y ácidos volátiles totales (en mg/l) en cada uno de los vinos. 


Ésteres Ácidos Ésteres Ácidos Ésteres Ácidos Ésteres Ácidos 
284.34 445.70 173.01 265.43 229.55 210.58 312.95 203.62 
215.34 332.59 188.72 166.73 144.39 254.82 172.79 342.21 
139.38 356.88 197.81 291.72 303.28 215.83 256.02 152.38 
658.38 192.59 105.14 412.42 295.24 442.55 170.41 391.30 


a) Construya un diagrama de dispersión de la concentración de ácido contra la concentración de ésteres. Indique el dato atípico. 


b) Calcule los coeficientes de la recta de mínimos cuadrados para predecir el nivel de ácido (y) a partir del nivel de ésteres (x), 
junto con sus desviaciones estándar estimadas. 


c) Calcule el P-valor de que la prueba de hipótesis nula A, : PB, = 0. 

d) Elimine el dato atípico, y calcule nuevamente los coeficientes de la recta de mínimos cuadrados, junto con sus desviacio- 
nes estándar estimadas. 

e) Calcule el P-valor de la prueba de la hipótesis nula Ay : f, = O para los datos con el dato atípico eliminado. 


$) ¿Un modelo lineal parece útil para predecir la concentración de ácido de la concentración de ésteres? Explique. 


El artículo “Mathematical Modeling of the Argon-Oxygen Decarburization Refining Process of Stainless Steel: Part IL. Appli- 
cation of the Model to Industrial Practice” (J. Wei y D. Zhu, en Metallurgical and Materials Transactions B, 2001:212-217) 
presenta el contenido de carbono (en % de masa) y la temperatura del baño (en K) para 32 calores de acero inoxidable auste- 
nítico. Estos datos se muestran en la tabla siguiente. 


% de % de % de % de 
carbono Temperatura || carbono Temperatura || carbono Temperatura || carbono Temperatura 
19 1975 17 1 984 18 1 962 17 1983 
23 1 947 20 1991 19 1985 20 1 966 
22 1 954 19 1965 19 1946 21 1972 
16 1992 22 1 963 15 1986 17 1989 
17 1965 18 1949 20 1 946 18 1 984 
18 1971 22 1960 22 1950 23 1967 
12 2 046 20 1960 15 1979 13 1 954 
24 1 945 19 1953 15 1989 15 1977 


a) Calcule la recta de mínimos cuadrados para predecir la temperatura del baño (y) del contenido de carbono (x). 


b) Identifique dos datos atípicos. Calcule las dos rectas de mínimos cuadrados que resultan de la eliminación de cada dato atí- 
pico por separado, y la recta de mínimos cuadrados que da como resultado la eliminación de ambos datos atípicos. 


c) ¿Las rectas de los mínimos cuadrados calculados en los incisos a) y b) son similares? Si es así, reporte la recta que ajustó 
a todo el conjunto de datos, junto con los intervalos de confianza de 95% para la pendiente y el intercepto. Si no, informe 
el rango de pendientes, sin un intervalo de confianza. 


El artículo “Mechanistic-Empirical Design of Bituminous Roads: An Indian Perspective” (A. Das y B. Pandey, en Journal of 
Transportation Engineering, 1999:463-471) presenta una ecuación de la forma y = a(lx y (U/x,)" para predecir el número de 
las repeticiones para fallas por fatiga de laboratorio (y) en relación con la fuerza de tensión en la parte baja de la viga bitumi- 
nosa (x,), y con el módulo de resiliencia (x>). Transforme esta ecuación en un modelo lineal, y exprese los coeficientes del mo- 
delo lineal en función de a, b y c. 


Un ingeniero quiere determinar la constante del resorte para un resorte especial. Cuelga cada vez varias pesas al final del re- 
sorte y mide la longitud de éste. En la siguiente figura se muestra un diagrama de dispersión de longitud (y) contra carga (x). 
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Longitud 


Carga 


a) ¿El modelo y = f, + fx es un modelo empírico o una ley física? 


b) ¿El ingeniero debe transformar las variables para hacer la relación más lineal, o sería mejor repetir el experimento? Explique. 


Ejercicios adicionales para el capítulo 7 


1. La ley de Beer-Lambert relaciona la absorción A de una solución con la concentración C de una especie en solución por A = 
MLC, donde L£ es la longitud de la trayectoria y M el coeficiente de absorción molar. Suponga que L = 1 cm. Las mediciones 
de A se realizan a diferentes concentraciones. Los datos se presentan en la tabla siguiente. 

Concentración (mol/cm?) | 1.00 1.20 1.50 1.70 2.00 
Absorción | 0.99 1.13 1.52 1.73 1.96 


a) SeaA = Bo + B ¡C la ecuación de la recta de mínimos cuadrados para predecir la absorción (A) a partir de la concentración 
(C). Calcule los valores de Bj y $. 


b) ¿Qué valor le asigna la ley de Beer-Lambert a f,? 
c) ¿Cuál es la cantidad física que estima B 1? 


d) Pruebe H, : f, = 0. ¿Este resultado es consistente con la ley de Beer-Lambert? 


2. En una prueba de material de guerra se dejó caer un gran número de bombas sobre un objetivo desde diferentes alturas. La ve- 
locidad inicial de las bombas en dirección a la tierra fue O. Sea y la altura en metros a partir de cual se deja caer una bomba, x 
el tiempo en segundos para que la bomba pegue en el suelo, sea w = 1%, y v= /y . La relación entre x y y está dada por y = 
4.9x?. Para cada uno de los siguientes pares de variables, establezca si el coeficiente de correlación es un resumen adecuado. 


a) xy y 
b) wyy 
C) xyv 
d) wyv 
e) In x y In y 


3. Las erupciones del géiser Old Faithful en el Parque Nacional de Yellowstone generalmente duran de 1.5 a 5 minutos. Entre las 
eruociones hay periodos de inactividad, que generalmente duran de 50 a 100 minutos. Un periodo de inactividad también se 
puede considerar como el tiempo de espera entre las erupciones. Las duraciones en minutos para 60 periodos de inactividad 
consecutivos se muestran en la tabla siguiente. Se desea predecir la duración de un periodo de inactividad a partir de la dura- 
ción del que le precede inmediatamente. Para expresar esto en forma simbólica, denote la secuencia de periodos de inactividad 
Ti, ..., Ts. Se quiere predecir T;,, a partir de 7. 
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1] T; 1] T; i T; 1] T; 1] T; 1] T; 
1 80 11 56 21 82 31 88 || 41 72 || 51 67 
2 84 12 80 22 51 32 51 42 75 52 8l 
3 50 13 69 23 76 33 s0 || 43 75 53 76 
4 93 14 57 24 82 34 49 || 44 66 || 54 83 
5 55 15 90 25 84 35 82 || 45 84 || 55 76 
6 76 16 42 26 53 36 75 || 46 70 || 56 55 
7 58 17 91 27 86 37 73 || 47 79 || 57 73 
8 74 18 51 28 51 38 67 | 48 60 || 58 56 
9 75 19 79 29 85 39 68 || 49 86 || 59 83 

10 80 20 53 30 45 40 86 || 50 71 60 57 

a) Construya un diagrama de dispersión de los puntos (T;, T;, ¡) parai = 1,..., 59. 

b) Calcule la recta de mínimos cuadrados para predecir T;,, a partir de 7,. (Sugerencia: los valores de la variable (x) indepen- 


diente son T,,..., Ts9, y los valores de la variable dependiente (y) son T», ...., Tp). 


y 
= 


Determine un intervalo de confianza del 95% para la pendiente f,. 

d) Si los tiempos de espera antes de la última erupción eran de 70 minutos, ¿cuál es el tiempo de espera pronosticado antes de 
la próxima erupción? 

e) Determine un intervalo de confianza del 98% para la media del tiempo de espera antes de la próxima erupción cuando el 

tiempo de espera de la última erupción fue de 70 minutos. 


f) Determine un intervalo de predicción del 99% para el tiempo de espera antes de la próxima erupción, si el tiempo de espe- 
ra antes de la última erupción fue de 70 minutos. 


4. Con referencia al ejercicio 3. 


a) Grafique los residuos contra los valores ajustados. ¿La gráfica indica incumplimientos serios de los supuestos usuales? 


b) Grafique los residuos contra el orden de los datos. ¿La gráfica indica violaciones serias de los supuestos usuales? 


5. Un químico está calibrando un espectrómetro que se utilizará para medir la concentración de monóxido de carbono (CO) en 
muestras atmosféricas. Para comprobar la calibración, se miden muestras de concentración conocida. Las concentraciones ver- 
daderas (x) y las medidas (y) están dadas en la tabla siguiente. Debido al error aleatorio, mediciones repetidas en la misma 
muestra variarán. Se considera que la máquina está calibrada si su media de respuesta es igual a la concentración verdadera. 


Concentración verdadera Concentración medida 
(ppm) (ppm) 

0 1 
10 11 
20 21 
30 28 
40 37 
50 48 
60 56 
70 68 
80 75 
90 86 


100 96 
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Para comprobar la calibración se ajusta al modelo lineal y = f, + fx + e. Idealmente, el valor de f, debe ser 0 y el valor 6; 
debe ser l. 

a) Calcule los estimadores Bo y B ¡ de mínimos cuadrados. 

b) ¿Se puede rechazar la hipótesis nula Hp : f, = 0? 

c) ¿Se puede rechazar la hipótesis nula A, : f, = 1? 

d) ¿Los datos proporcionan suficiente evidencia para concluir que la máquina está fuera de calibración? 

e) Calcule un intervalo de confianza de 95% para la media de la medición cuando la concentración verdadera es 20 ppm. 

$) Calcule un intervalo de confianza de 95% para la media de la medición cuando la concentración verdadera es 80 ppm. 


8) Alguien afirma que la máquina está calibrada para concentraciones cerca de 20 ppm, ¿estos datos proporcionan suficiente 
evidencia para rechazar esta afirmación? Explique. 


. El artículo “Experimental Measurement of Radiative Heat Transfer in Gas-Solid Suspension Flow System” (G, Han, K. Tuzla 
y J. Chen, en AiChe Journal, 2002: 1910-1916) analiza la calibración de un radiómetro. Se hicieron algunas mediciones de la 
fuerza electromotriz en lecturas del radiómetro (en volts) y el flujo de radiación (en kilowatts por metro cuadrado). Los resul- 
tados (leídos de una gráfica) se presentan en la tabla siguiente. 


Flujo de calor (y) 15 31 51 55 67 89 
Señal de salida (x) 1.08 2.42 4.17 4.46 37 6.92 


a) Calcule la recta de mínimos cuadrados para predecir el flujo de calor a partir de la señal de salida. 
b) Si el radiómetro lee 3.00 V, pronostique el flujo de calor. 


c) Si el radiómetro lee 8.00 V, ¿se puede predecir el flujo de calor? Si es así, predígalo. Si no, explique. 


. El artículo “Effect of Temperature on the Marine Immersion Corrosion of Carbon Steels” (R. Melchers, en Corrosion, 
2002:768-781) presenta mediciones de pérdida por corrosión (en mm) que soportan elementos de acero y de cobre sumergidos 
en agua de mar en 14 ubicaciones diferentes. Para cada ubicación se registró la media de la pérdida por corrosión (en mm), jun- 
to con la media de la temperatura del agua (en *C). Los resultados, después de un año de inmersión, se presentan en la tabla 
siguiente. 


Media de Media de 
Corrosión la temperatura Corrosión la temperatura 
0.2655 23.3 0.2200 26.5 
0.1680 18.5 0.0845 15.0 
0.1130 23.5 0.1860 18.0 
0.1060 21.0 0.1075 9.0 
0.2390 17.5 0.1295 11.0 
0.1410 20.0 0.0900 11.0 
0.3505 26.0 0.2515 13.5 


a) Calcule la recta de mínimos cuadrados para predecir la pérdida por corrosión (y) para la media de la temperatura (x). 
b) Determine un intervalo de confianza de 95% para la pendiente. 
c) Determine un intervalo de confianza de 95% para la media de la pérdida de corrosión a una media de temperatura de 20*C. 


d) Determine un intervalo de predicción de 90% para la pérdida por corrosión de un elemento inmerso a una media de la tem- 
peratura de 20C. 


. El artículo “Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire 
Method” (X. Zhang, W. Hendro y cols., en International Journal of Thermophysics, 2002: 1077— 1090) presenta mediciones 
de la conductividad térmica y difusividad de algunos polímeros a diferentes temperaturas. Los resultados para la difusividad 
térmica de policarbonato (en 10? m?s) se presentan en la tabla siguiente. 
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Temperatura Temperatura Temperatura Temperatura 
Difusividad (20) Difusividad (0) Difusividad (20) Difusividad (20) 
1.43 28 1.36 107 1.05 159 1.26 215 
1.53 38 1.34 119 1.13 169 0.86 225 
1.43 61 1.29 130 1.03 181 1.01 237 
1.34 83 1.36 146 1.06 204 0.98 248 


a) Calcule la recta de mínimos cuadrados para predecir la difusividad (y) a partir de la temperatura (x). 
b) Determine un intervalo de confianza de 95% para la pendiente. 

c) Determine un intervalo de confianza de 95% para la difusividad de policarbonato a 100*C. 

d) Determine un intervalo de predicción de 95% para la difusividad de policarbonato a 100%C. 


e) ¿Cuál es más útil, el intervalo de confianza o el de predicción? Explique. 


. El artículo “Copper Oxide Mounted on Activated Carbon as Catalyst for Wet Air Oxidation of Aqueous Phenol. 1. Kinetic and 


Mechanistic Approaches” (P. Alvarez, D. McLurgh y P. Plucinski, en Industrial Engineering and Chemistry Research, 
2002:2147-2152) notifica resultados de experimentos para describir el mecanismo de oxidación catalítica húmeda aérea de fe- 
nol acuoso. En un conjunto de experimentos se midieron la tasa de oxidación inicial (en kilogramos de fenol por kilogramo de 
catalizador por hora) y la concentración de oxígeno (en mol/m?). Los resultados (leídos de una gráfica) se presentan en la ta- 
bla siguiente. 


0.72 
8.28 


0.64 
7.06 


0.60 
6.08 


0.49 
4.76 


Tasa (y) 


Concentración de O, (x) 


| 0.44 
| 3.84 


a) Se sabe que x y y están relacionados por una ecuación de la forma y = kx”, donde r es el orden de reacción de oxígeno. 
Realice las transformaciones apropiadas para expresar esto último como una ecuación lineal. 


b) Estime los valores de k y r calculando la recta de mínimos cuadrados. 


c) Con base en estos datos, ¿es creíble que el orden de reacción del oxígeno es igual a 0.5? Explique. 


Una científica especialista en materiales está experimentando con un nuevo material para fabricar latas de bebidas. Llena latas 
con líquido a temperatura ambiente, y después las refrigera para ver qué tan rápido se enfrían. De acuerdo con la ley de enfria- 
miento de Newton, si f es el tiempo de refrigeración y y la disminución de la temperatura al tiempo 1, entonces y está relacio- 


nado con f por una ecuación de la forma 

In > Bo + Bit, 
donde f, representa una constante que depende de la temperatura inicial de la lata y de la temperatura ambiente del refrigera- 
dor, y f;, una constante que depende de las propiedades físicas de la lata. La científica mide la temperatura a intervalos regu- 
lares, y después ajusta este modelo a los datos. Los resultados se muestran en la siguiente figura. Un diagrama de dispersión, 
con la recta de mínimos cuadrados sobrepuesta, está a la izquierda, y la gráfica de residuos, a la derecha. 


In (temperatura) 
Residuo 


Tiempo Valor ajustado 
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¿Qué debe hacer después la científica? 
i. Tratar de encontrar una transformación que haga la relación más lineal. 
ii. Utilizar el modelo tal como está, ya que la ley del enfriamiento de Newton es una ley física. 
iii. Utilizar el modelo tal como está, porque ajusta bastante bien. 
iv. Revisar cuidadosamente la configuración experimental para ver qué puede estar mal. 


11. La supervisión de la producción de una reacción química dada a diferentes temperaturas del recipiente de reacción produce los 
resultados que se muestran en tabla siguiente. 


Temperatura (*C) Producción (%) Temperatura (?C) Producción (%) 
150 77.4 250 88.9 
150 76.7 250 89.2 
150 78.2 250 89.7 
200 84.1 300 94.8 
200 84.5 300 94.7 
200 83.7 300 93.9 


a) Determine los estimadores de mínimos cuadrados para fp, fB, y O? para el modelo lineal simple = fB, + f, Temperatura + e. 
b) ¿Puede concluir que f, no es igual a 0? 

c) ¿Puede concluir que $, no es igual a 0? 

d) Realice una gráfica de residuos. ¿El modelo lineal parece adecuado? 

e) Determine un intervalo de confianza de 95% para la pendiente. 

$) Determine un intervalo de confianza de 95% para la media de la producción a 225”C. 


g) Determine un intervalo de predicción de 95% para una producción a 225*C. 


12. El artículo “Approach to Confidence Interval Estimation for Curve Numbers” (R. McCuen, en Journal of Hydrologic Enginee- 
ring, 2002:43-48) analiza la relación entre la profundidad de precipitación y la profundidad de corrientes en algunos lugares. 
En un lugar especial se registraron la profundidad de precipitación y la de corrientes para 13 lluvias torrenciales. El siguiente 
corresponde al resultado de MINITAB para un ajuste de la recta de mínimos cuadrados para predecir la profundidad de las co- 
rrientes de la profundidad de precipitación (ambas medidas en pulgadas). 


The regression equation is 
Runoff = -0.23 + 0.73 Rainfall 


Predictor Coef SE Coef T Pp 
Constant -0.23429 0.23996 -0.98 0.350 

Rainfall 0.72868 0.06353 11.47 0.000 

S= 0.40229 R=-Sq = 92.3% R=-Sqladj) = 91.6% 
Analysis of Variance 

Source DF SS: MS F Pp 
Regression d: 21.290 21.290 131.55 0.000 
Residual Error 11 1.780 0.16184 

Total 12 23.070 


a) Pronostique la corriente para una tormenta con 2.5 pulg de precipitación. 

b) Alguien afirma que si dos tormentas difieren en su precipitación en 1 pulg, entonces sus corrientes serán diferentes, tam- 
bién en promedio por 1 pulg. ¿Esta afirmación es creíble? Explique. 

c) Es un hecho que si la precipitación es O la corriente es 0. ¿La recta de mínimos cuadrados es consistente con este hecho? 
Explique. 
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13. 


14. 


15. 


16. 


Con referencia al ejercicio 12, alguien quiere calcular un intervalo de confianza de 95% para la media de la corriente cuando 
la precipitación es 3. ¿Se puede calcular a partir de la información en el resultado de MINITAB que se muestra en el ejercicio 
12? ¿O se necesita más información? Elija la mejor respuesta. 


i. Sí, se puede calcular del resultado de MINITAB. 
ii. No, también se necesita conocer los valores de la precipitación que se utilizaron para calcular la recta de mínimos cuadrados. 
iii. No, también se necesita conocer los valores de la corriente que se utilizaron para calcular la recta de mínimos cuadrados. 
iv. No, también se necesita conocer tanto los valores de la precipitación como de la corriente que se utilizaron para calcular la 
recta de mínimos cuadrados. 


Durante la producción de un plato de caldera, las piezas de prueba están sujetas a una carga, y se miden sus elongaciones. En 
un experimento especial, se realizarán cinco pruebas, con cargas (en MPa) de 11, 37, 54, 70 y 93. Se calculará la recta de cua- 
drados mínimos para predecir la elongación de la carga. Se calcularán los intervalos de confianza para la media de la elonga- 
ción respecto a algunas cargas diferentes. ¿Cuál de los siguientes intervalos será el más ancho? ¿Cuál será el más angosto? 


i. El intervalo de confianza de 95% para la media de la elongación bajo una carga de 53 MPa. 
ii. El intervalo de confianza de 95% para la media de la elongación bajo una carga de 72 MPa. 


iii. El intervalo de confianza de 95% para la media de la elongación bajo una carga de 35 MPa. 


El artículo “Low-Temperature Heat Capacity and Thermodynamic Properties of 1,1,l-trifluoro-2,2-dichloroethane” (R. Varush- 
chenko y A. Druzhinina, en Fluid Phase Equilibria, 2002: 109-119) describe un experimento en el cual muestras de freón R-123 
fueron derretidas en un calorímetro. Se proporcionaron diferentes cantidades de energía al calorímetro para derretirlas. Se mi- 
dieron las temperaturas de equilibrio de fusión (1) y las fracciones derretidas (f). La recta de cuadrados mínimos se ajustó con el 
modelo ¡ = f, + fB¡(1/f) + e, donde 1/f es el recíproco de la fracción. Los resultados del ajuste son los siguientes. 


The regression equation is 
Temperature = 145.74 - 0.052 Reciprocal Frac 


Predictor Coef SE Coef T IS 
Constant 145.736 0.00848 17190.1 0.000 
Recip Frac -0.05180 0.00226 -22.906 0.000 
S= 0.019516 R-Sq = 97.6% R=-Sqladj) = 97.4% 


Analysis of Variance 


Source DF SS MS F Pp 
Regression 1 0.200 0.200 524.70 0.000 
Residual Error 13 0.00495 0.000381 

Total 14 0.205 


a) Estime la temperatura con la cual la mitad de la muestra se ha derretido (es decir, f = 1/2). 

b) ¿Puede determinar el coeficiente de correlación entre la temperatura de equilibrio y el recíproco de la fracción derretida en 
este resultado? Si es así, determínelo. Si no, explique qué información adicional se necesita. 

c) La temperatura de punto triple es la más baja a la cual toda la muestra se derrite (es decir, f = 1). Calcule la temperatura 
del punto triple. 


El artículo “Polyhedral Distortions in Tourmaline” (A. Ertl, J. Hughes y cols., en The Canadian Mineralogist, 2002: 153-162) 
presenta un modelo para calcular la distorsión que soporta la longitud de enlace turmalina-vanadio. Para comprobar la exacti- 
tud del modelo se calcularon diferentes valores (x) que se compararon directamente con los valores observados (y). Los resul- 
tados (leídos de una gráfica) se presentan en la tabla siguiente. 


17. 


18. 


19. 


20. 


21. 
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Valor observado Valor calculado Valor observado Valor calculado 
0.33 0.36 0.74 0.78 
0.36 0.36 0.79 0.86 
0.54 0.58 0.97 0.97 
0.56 0.64 1.03 1.11 
0.66 0.64 1.10 1.06 
0.66 0.67 113 1.08 
0.74 0.58 1.14 1.17 


a) Suponga que el valor observado y es una medición sin sesgo del valor verdadero. Muestre que si el valor calculado x es 
exacto (es decir, es igual al valor verdadero), entonces y = x + €, donde € es el error de medición. 


b) Calcule la recta de mínimos cuadrados y = Bo + B ¡X. 
c) Muestre que si los valores calculados son precisos, entonces los coeficientes verdaderos son ff, = 0 y $, =1. 
d) Pruebe la hipótesis nula f, = 0 y 6, =1. 


e) ¿Es creíble que el valor calculado es exacto? ¿O puede concluir que no lo es? Explique. 


Considere el modelo y = PBx + €, donde se sabe que el intercepto de la recta es cero. Suponga que se observan los valores 
(X1, Y), + + + > Ep Y), y se calcula el estimador de mínimos cuadrados $ de 6. 


a) Deduzca el estimador de mínimos cuadrados $ en función de x; y y;. 


b) Sea o? la varianza de € (que es también la varianza de y). Deduzca el estimador de la varianza 07 de los mínimos cuadra- 
dos en función de 0? y de las x;. 


Utilice la ecuación (7.33) (pág. 510) para mostrar que 4, = Bi. 
Utilice la ecuación (7.34) (pág. 510) para mostrar que ug, = Bo. 


Utilice la ecuación (7.33) (pág. 510) para deducir la fórmula 02 = 
1 


1 r 
Utilice la ecuación (7.34) (pág. 510) para deducir la fórmula LS = 0? (- + E) ; 
0 


de Ain xy 


Capítulo 


Regresión múltiple 


Introducción 


Los métodos de regresión lineal simple, analizados en el capítulo 7, son aplicables cuando se 
desea ajustar un modelo lineal al relacionar el valor de una variable independiente y con el 
valor de una sola variable dependiente x. Sin embargo, hay muchos casos en los que una so- 
la variable independiente no es suficiente. Por ejemplo, el grado de desgaste de un cojinete 
lubricado en una máquina puede depender tanto de la carga en el cojinete como de las pro- 
piedades físicas del lubricante. Una ecuación que exprese el desgaste como una función sólo 
de la carga o de las propiedades del lubricante fallará como predictor. En situaciones como 
éstas hay varias variables independientes, xy, x», . . . , X,, relacionadas con una variable depen- 
diente y. Si la relación entre las variables dependiente e independiente es lineal, se puede usar 
la técnica de regresión múltiple. 


8.1 El modelo de regresión múltiple 
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A continuación se describirá el modelo de regresión múltiple. Suponga que se tiene una mues- 
tra de n elementos, y para cada uno se ha medido una variable dependiente y y p variables inde- 


pendientes xy, . . . , Xy. El -ésimo elemento de la muestra, por tanto, tiene el conjunto ordenado 
O; Xi « - - > Xpi). En consecuencia, se puede ajustar al modelo de regresión múltiple 
=P + *Pa+a (8.1) 


Hay algunos casos especiales del modelo de regresión múltiple (8.1) que con frecuencia se uti- 
lizan en la práctica. Uno es el modelo de regresión polinomial, en el cual las variables inde- 
pendientes son potencias de una sola variable. El modelo de regresión polinomial de grado p es 


y = Bo + Bix, + Box AS Dx E; (8.2) 


8.1 El modelo de regresión múltiple 557 


Los modelos de regresión múltiple también se pueden hacer con potencias de diversas varia- 
bles. Por ejemplo, un modelo de regresión polinomial de grado 2, también llamado modelo 
cuadrático, en dos variables x, y x, está dado por 


Y = Bo + Bixi + Boxy; +Byx io; + Bi, + Bara; + € (8.3) 


Una variable producto de las otras dos variables es llama interacción. En el modelo (8.3), la 
variable x,, x,, es la interacción entre x, y x>. 

Los modelos (8.2) y (8.3) se consideran lineales, aunque contengan términos no linea- 
les de las variables independientes. La razón de que continúen siendo modelos lineales es que 
son lineales en los coeficientes f,. 


Estimando los coeficientes 


En cualquier modelo de regresión múltiple, los estimadores Bo, $B,,...., Das se calculan por 
medio de mínimos cuadrados, exactamente de la misma forma como en la regresión lineal 
simple. La ecuación 


9 =Bo+ Pix +: +8,x, (8.4) 


se llama ecuación de mínimos cuadrados o ecuación de regresión ajustada. Ahora se de- 
fine $, como la coordenada y de la ecuación de mínimos cuadrados correspondiente a los va- 
lores x (Xy;, . . . , Xp). Los residuos representan las cantidades e, = y, — $5, que constituyen las 
diferencias entre los valores observados y y los valores y que proporciona la ecuación. Se 

» ph Pp dd A n 2 
quieren calcular Bo, $B,,..., P,, para minimizar la suma de los cuadrados residuales ió 
Con ese propósito se expresa e; como función de Bo, $B,,...., B,: 


>= Yi Bo Bix o Ba (8.5) 


Por consiguiente, se desea minimizar la suma 


SN 0 —Bo Bix —>*+ —BpxpiY? (8.6) 


i=1 


Hacer esto último requiere tomar derivadas parciales de (8.6) con respecto a Bo, $B,,.... B,, 
e igualarlas a O, así como resolver las p + 1 ecuaciones resultantes con p + l incógnitas. Las 
expresiones que se obtienen para Bo, B,,..., De son complicadas. Afortunadamente, han si- 
do codificadas en muchos software para que pueda calcularlos en la computadora. Para cada 
coeficiente estimado fB,, hay una desviación estándar estimada sf, También las expresiones 
para estas cantidades son complicadas, por lo que en la actualidad las personas dependen de 
las computadoras para calcularlas. 


Sumas de cuadrados 


Gran parte del análisis en la regresión múltiple se basa en tres cantidades fundamentales. És- 
tas son suma de los cuadrados de la regresión (SSR, por sus siglas en inglés), suma de los 
cuadrados del error (SSE, por sus siglas en inglés), y suma total de los cuadrados (SST, 
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por sus siglas en inglés). Estas cantidades se definieron en la sección 7.2, en el análisis de la 
regresión lineal simple. Las definiciones también valen para la regresión múltiple. Aquí se re- 
piten. 


Definición: Sumas de los cuadrados 
En el modelo de regresión múltiple 


> DA E Bit e Eg 
se definen las siguientes sumas de cuadrados: 


E Suma de los cuadrados de la regresión: SSR = > ;_¡ (Y; — yy 
E Suma de los cuadrados del error: SSE = Y ;_, (y; — J)? 
E Suma total de los cuadrados: SST = >;_,(y¡ — y? 


Ñ 
i 


Se puede mostrar que 
SST = SSR + SSE (8.7) 


La ecuación (8.7) se llama identidad del análisis de la varianza. Ésta se obtiene para 
la regresión lineal simple al final de la sección 7.2. 


Ahora se verá cómo se utilizan estas sumas de los cuadrados para deducir los estadísti- 
cos que se emplean en la regresión múltiple. Como se hizo en la regresión lineal simple, el 
análisis se restringirá al caso más simple, en el cual se satisfacen los cuatro supuestos acerca 
de los errores €,. Aquí se repiten estos supuestos. 


Supuestos para los errores en modelos lineales 
En la situación más simple se satisfacen los siguientes supuestos: 


1. Los errores €, ...., €, son aleatorios e independientes. En particular, la magnitud 
de cualquier error e, no influye en el valor del siguiente error €; ¡. 

2. Los errores €, ...., €, tienen media O. 

3. Los errores €, ..., €, tienen la misma varianza, que se denota por medio de 7 

4. Los errores €, .... , €, están distribuidos normalmente. 


Al igual que en la regresión lineal simple, estos supuestos implican que las observacio- 
nes y, sean variables aleatorias independientes. Para ser más específico, cada y, tiene una dis- 
tribución normal con media fp, + Bix; + +++ + B,xp; y varianza a?. Cada coeficiente f, 
representa el cambio en la media de y relacionado con un aumento de una unidad en el valor 
de x;, cuando las otras variables x se mantienen constantes. 
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En el modelo de regresión múltiple y, = B, + Bix, + +++ + B,x,¡ + €;, bajo los su- 
puestos 1 a 4, las observaciones y;, . ..., y, Son variables aleatorias independientes que 
siguen la distribución normal. La media y la varianza de y, están dadas por 


My, = Bo+ Bix + cc + BpXpi 


Cada coeficiente f, representa el cambio en la media de y relacionada con un aumento 
de una unidad en el valor de x;, cuando las otras variables x se mantienen constantes. 


Los estadísticos s?, R? y F 


Los tres estadísticos más utilizados en la regresión múltiple son el estimador de la varianza 
del error s”, el coeficiente de determinación R? y el estadístico F. Cada uno de éstos tiene un 
análogo en la regresión lineal simple. En su momento se analizará a cada uno. 

En la regresión lineal simple, el estimador de la varianza de error es >;_ (1; — )?/(n — 2). 
Se divide entre n — 2 en lugar de n porque los residuos (e, = y; — 9¡) tienden a ser un poco 
más pequeños que los errores e,. La razón de que los residuos sean un poco más pequeños que 
los dos coeficientes (B, y $31) es que se han elegido para minimizar A 9)?. Ahora, 
para el caso de la regresión múltiple, se están estimando p + 1 coeficientes en lugar de sólo 
dos. Por tanto, los residuos tienden a ser aún más pequeños, por lo que se debe dividir 
¡01 — 5)? entre un denominador aún más pequeño. En este sentido, el denominador ade- 
cuado es igual al número de las observaciones (n) menos el número de parámetros en el mo- 
delo (p + 1). Por tanto, el estimador de la varianza del error está dado por 


a O — Pi? E 
ES (8.8) 
n=p-1 n=p-=1 


El estimador de la varianza sá de cada coeficiente de mínimos cuadrados f3, se calcula 
al multiplicar s? por una función bastante complicada de las variables Xi; En la práctica, los 
valores de 5%, se calculan en una computadora. Cuando se satisfacen los supuestos l a 4, la 
cantidad 


Bi—Bi 


s, 


tiene una distribución f de Student con n — p — 1 grados de libertad. El número de grados de 
libertad es igual al denominador con que se calculó el estimador de varianza del error s? 
(ecuación 8.8). Con este estadístico se calculan los intervalos de confianza y se realizan prue- 
bas de hipótesis sobre los valores f,, de igual forma que en la regresión lineal simple. 

En la regresión lineal simple, el coeficiente de determinación, r, mide la bondad del 
ajuste del modelo lineal. El estadístico de bondad del ajuste en la regresión múltiple represen- 
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ta una cantidad que se denota mediante R”, también denominado coeficiente de determina- 
ción. El valor de R? se calcula del mismo modo que r? en la regresión lineal simple (ecuación 
7.21, en la sección 7.2). Este es 


==» => 0-1 _SST—SSE _ SSR 


R?*= 
N=101 — y? SST SST 


(8.9) 


En la regresión lineal simple casi siempre se prueba la hipótesis nula f, = O. Si ésta se 
aprueba, entonces el modelo lineal no podría ser útil. La hipótesis nula análoga en la regre- 
sión múltiple es A, : PB, = PB, =+*-* += BP, =0. Ésta es una hipótesis muy fuerte. Establece 
que ninguna de las variables independientes tiene alguna relación lineal con la variable de- 
pendiente. En la práctica, los datos por lo general proporcionan evidencia suficiente para re- 
chazar esta hipótesis. El estadístico de prueba para esta hipótesis es 


[Di104 - YY - Dj 00 30?] /p _ [SST—SSEJ/p SSR/p 


F= = = 
Dia 0-90] /M—-p-1 SSE/nM—p=1) SSE/(n—p-= 1) 


(8.10) 


Éste es un estadístico F; su distribución nula es F n= p— 1: Observe que el denomina- 
dor del estadístico F es s” (ecuación 8.8). Los subíndices p y n — p — 1 son los grados de li- 
bertad del estadístico F. 

Las diferentes versiones del estadístico F se pueden utilizar para probar la hipótesis nu- 


la más débil. En particular, dado un modelo con variables independientes x,,..., Xp» A VECes 
se quiere probar la hipótesis nula de que alguna de ellas (por ejemplo, x; y 1, . . . , X,) no se 
relaciona linealmente con la variable dependiente. Con este propósito se puede construir una 
versión del estadístico F para probar la hipótesis nula Ay : PB, +1 =***= PB, = 0. Lo anterior 


se analizará con mayor profundidad en la sección 8.3. 


Un ejemplo 

Ahora se analizará un ejemplo de regresión múltiple. Primero se describen los datos. Una red 
de computadoras móviles ad hoc consta de varias computadoras (nodos) que se mueven den- 
tro de un área de la red. Con frecuencia los mensajes se envían de uno a otro nodo. Cuando 
el nodo receptor está fuera del alcance, se debe enviar el mensaje a un nodo cercano, que des- 
pués lo envía hacia su destino a lo largo de una ruta de direccionamiento. Ésta se determina 
por medio de una rutina conocida como un protocolo de direccionamiento. El porcentaje de 
mensajes que se distribuye exitosamente se llama goodput (caudal útil), y lo afecta la veloci- 
dad promedio del nodo y la pausa en los nodos en cada destino. La tabla 8.1 presenta la ve- 
locidad de nodo promedio, el promedio de pausa y el goodput para 25 redes ad hoc móviles 
simuladas. Estos datos se generaron para un estudio descrito en el artículo “Metrics to Ena- 
ble Adaptive Protocols for Mobile Ad Hoc Networks” (J. Boleng, W. Navidi y T. Camp, en 
Proceedings of the 2002 International Conference on Wireless Networks, 2002:293-298). 
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TABLA 8.1 Velocidad de nodo promedio, tiempo de pausa y goodput para redes 
de computadoras 


Velocidad Tiempo de pausa Goodput | Velocidad Tiempo de pausa Goodput 
(m/s) (s) (%) (m/s) (s) (%) 
5 10 95.111 20 40 87.800 
5 20 94.577 20 50 89.941 
5 30 94.734 30 10 62.963 
5 40 94.317 30 20 76.126 
Dd 50 94.644 30 30 84.855 
10 10 90.800 30 40 87.694 
10 20 90.183 30 S0 90.556 
10 30 91.341 40 10 55.298 
10 40 91.321 40 20 78.262 
10 50 92.104 40 30 84.624 
20 10 72.422 40 40 87.078 
20 20 82.089 40 50 90.101 
20 30 84.937 


El siguiente resultado de MINITAB presenta los resultados del ajuste al modelo 


Goodput = fi, + PB, Velocidad + f, Pausa + BP, Velocidad - Pausa 
+ f, Velocidad” + Bs Pausa? + e 


The regression equation is 

Goodput = 96.0 - 1.82 Speed + 0.565 Pause 
+ 0.0247 Speed*Pause + 0.0140 Speed” 2 
-0.0118 Pause”2 


Predictor Coef SE Coef T Pp 
Constant 96.024 3.946 24.34 0.000 
Speed -1.8245 0.2376 -7.68 0.000 
Pause 0.5652 0.2256 Ll 0.022 
Speedx*Pa 0.024731 0.003249 7.61 0.000 
Speed” 2 0.014020 0.004745 2.95 0.008 
Pause”2 -0.011793 0.003516 d. 09 0.003 
S= 2.942 R-Sq = 93.2% R-Sqladj) = 91.4% 


Analysis of Variance 


Source DF SS MS F Pp 
Regression 5 2240.49 448.10 Sl.ld 0.000 
Residual Error 19 164.46 8.66 


Total 24 2404.95 
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Predicted Values for New Observations 
New 
Obs Fit SE Fit 95% CI 95% PI 
1 74.272 1.175 (71.812, 76.732) (67.641, 80.903) 


Values of Predictors for New Observations 


New 
Obs Speed Pause  SpeedxPause Speed?2  Pause”2 
1 25.0 15.0 375 625 225 


Gran parte del resultado es análogo al de la regresión lineal simple. La ecuación de re- 
gresión ajustada se presenta cerca de la parte superior del resultado. Debajo de ésta se mues- 
tran el estimador del coeficiente (3, y las estimaciones de sus desviaciones estándar SB. 
Después de cada desviación estándar está el estadístico £ de Student para probar la hipótesis 
nula de que el valor verdadero del coeficiente es igual a O. Este estadístico es igual al cocien- 
te del estimador del coeficiente y su desviación estándar. Debido a que hay n = 25 observa- 
ciones y p = 5 variables independientes, el número de grados de libertad para el estadístico £ 
de Student es 25 — 5 — 1 = 19. Los P-valores para las pruebas se presentan en la columna 
siguiente. Todos los P-valores son pequeños, por lo que sería razonable concluir que cada una 
de las variables independientes en el modelo es útil para pronosticar el goodput. 

La cantidad “S” es s, la estimación de la desviación estándar del error, y “R-sq” repre- 
senta el coeficiente de determinación de R?. El ajuste Re, “R-sq(adj)”, se utiliza principalmen- 
te en la selección de modelo. En la sección 8.3 se analizará este estadístico. 

El análisis de la tabla de varianza es análogo al que se encuentra en la regresión lineal 
simple. Se recorrerá columna por columna. En la columna correspondiente, “DF”, los grados 
de libertad para la regresión son igual al número de variables independientes (5). Observe que 
Speed? (Velocidad?), Pause? (Pausa?), y Speed - Pause (Velocidad - Pausa) se consideran co- 
mo variables independientes distintas, aun cuando se pueden calcular a partir de Speed (Ve- 
locidad) y Pause (Pausa). En el siguiente renglón, etiquetado como “Residual Error”, se 
encuentra que el número de grados de libertad es 19, que representa el número de observacio- 
nes (25) menos el número de los parámetros estimados (6: el intercepto, y los coeficientes pa- 
ra cinco variables independientes). Por último, el “Total” de grados de libertad es uno menos 
que el tamaño de muestra de 25. Observe que el total de grados de libertad constituye la su- 
ma de los grados de libertad de regresión más los grados de libertad para el error. Yendo ha- 
cia abajo en la columna “SS”, se encuentra la suma de los cuadrados de la regresión SSR, la 
suma de los cuadrados del error SSE, y la suma total de los cuadrados SST. Note que SST = 
SSR + SSE. La columna “MS” presenta la media de los cuadrados, que son las sumas de 
cuadrados divididas entre sus respectivos grados de libertad. Observe que la media del cua- 
drado del error es igual a s”, la estimación para la varianza de error: is =$ =2047 = 
8.66). La columna etiquetada como “F” presenta los cuadrados medios para la regresión di- 
vidida entre los cuadrados medios para el error (448.10/8.66 = 51.77, lo que permite el error 
de redondeo). Éste es el estadístico F que se muestra en la ecuación (8.10), y con el que se 
prueba la hipótesis nula de que ninguna de las variables independientes están relacionadas li- 
nealmente con las variables dependientes. El P-valor para esta prueba es 0. 

El resultado debajo del encabezado “Predicted Values for New Observations” presenta 
los intervalos de confianza de la respuesta media y los intervalos de predicción para los valo- 
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res de las variables dependientes que haya especificado el usuario. Los valores de las varia- 
bles dependientes que se han especificado están listadas debajo del encabezado “Values of 
Predictors for New Observations”. Los valores de las variables independientes en este resul- 
tado son Speed = 25 y Pause = 15. La cantidad 74.242, etiquetada como “Fit”, es el valor de 
5, obtenido al sustituir estos valores en la ecuación de regresión ajustada. La cantidad etique- 
tada “SE Fit” representa el estimador de la desviación estándar de $, que se utiliza para cal- 
cular el intervalo de confianza de 95%, etiquetado como “95% CI”. La cantidad “95% PTI” 
significa el intervalo de predicción de 95% para una futura observación de la variable depen- 
diente cuando se establecen las variables independientes para algunos valores dados. De la 
misma manera que con el intervalo de confianza, este intervalo se centra en $), pero es más an- 
cho, igual que en la regresión lineal simple. 


Utilice el modelo de la regresión múltiple con el propósito de pronosticar el goodput para una 
red con velocidad de 12 m/s y tiempo de pausa de 25 s. 


Solución 
Del resultado de MINITAB, el modelo ajustado es 


Goodput = 96.0 — 1.82 Velocidad + 0.565 Pausa + 0.0247 Velocidad - Pausa 
+ 0.0140 Velocidad” — 0.0118 Pausa? 


Al sustituir 12 para velocidad y 25 para pausa, se encuentra que el goodput pronosticado es 
90.336. 


Para los datos goodput, determine el residuo para el punto Velocidad = 20, Pausa = 30. 


Solución 

El valor observado goodput (tabla 8.1) es y = 84.937, El valor pronosticado $ se encuentra 
sustituyendo Velocidad = 20 y Pausa = 30 en el modelo ajustado que se presenta en la solu- 
ción del ejemplo 8.1. Se obtiene un valor pronosticado para goodput de $ = 86.350. El resi- 
duo está dado por y — Y = 84.937 — 86.330 = — 1.413. 


Es sencillo calcular, mediante el resultado computacional, los intervalos de confianza y 
probar las hipótesis considerando los coeficientes de mínimos cuadrados. Los ejemplos 8.3 a 
8.5 proporcionan casos ilustrativos. 


Determine un intervalo de confianza de 95% para el coeficiente de la Velocidad en el mode- 
lo de regresión múltiple. 


Solución 
Del resultado, el coeficiente estimado es — 1.8245, con desviación estándar de 0.2376. Un in- 
tervalo de confianza se determina utilizando la distribución £ de Student con 19 grados de li- 
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bertad. Los grados de libertad para el estadístico £ son iguales a los de libertad del error. El 
valor f para un intervalo de confianza de 95% es t¡9 q25 = 2.093. El intervalo de confianza de 
95% es 


1.8245 + (2.093)(0.2376) = —1.8245 + 0.4973 = (-2.3218, — 1.3272) 


Pruebe la hipótesis nula de que el coeficiente de Pausa es menor o igual que 0.3. 


Solución 
El estimador del coeficiente de Pausa es $$, = 0.5652, con desviación estándar sp, = 0.2256. 
La hipótesis nula es B, = 0.3. Bajo H, se tiene que PB, = 0.3, por lo que la cantidad 


_P2-0,3 
0.2256 


tiene una distribución f de Student con 19 grados de libertad. Observe que el concepto grados 
de libertad para el estadístico £ es igual a los grados de libertad para el error. El valor del es- 
tadístico £ es (0.5652 — 0.3)/0.2256 = 1.1755. El P-valor se encuentra entre 0.10 y 0.25. Es 
creíble que B, <= 0.3. 


Determine un intervalo de confianza de 95% para la respuesta media ,, y un intervalo de 
predicción de 95% para una futura observación cuando Velocidad = 25 y Pausa = 15. 


Solución 

Del resultado, bajo el encabezado “Predicted Values for New Observations”, el intervalo de 
confianza de 95% es (71.812, 76.732) y el intervalo de predicción de 95% es (67.641, 
80.903). 


Comprobación de supuestos en la regresión múltiple 


En la regresión múltiple, como en la regresión lineal simple, es importante probar la validez 
de los supuestos para los errores en modelos lineales (presentados al principio de esta sec- 
ción). Los diagnósticos para estos supuestos empleados en el caso de la regresión lineal sim- 
ple también son útiles en la regresión múltiple. Estos diagnósticos son las gráficas de residuos 
contra valores ajustados, las de probabilidad normal de residuos y las de residuos contra el or- 
den en que se hacen las observaciones. También es una buena idea hacer gráficas de residuos 
contra cada una de las variables independientes. Si las gráficas de residuos indican incumpli- 
miento de los supuestos, es posible intentar arreglar el problema al transformar las variables, 
como en la regresión lineal simple. 

La figura 8.1 presenta una gráfica de residuos contra valores ajustados para los datos 
goodput. Las figuras 8.2 y 8.3 presentan gráficas de residuos contra velocidad y pausa, res- 
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pectivamente. La gráfica de los residuos contra valores ajustados da la impresión de curvatu- 
ra, que causan principalmente algunos puntos en los extremos. Las gráficas de los residuos 
contra variables independientes no indican ningún incumplimiento grave de los supuestos del 
modelo. En la práctica se podría aceptar que este modelo ajusta bastante bien, o se podrían 
aplicar técnicas de selección de modelos (analizadas en la sección 8.3) para analizar modelos 
alternativos. 


Residuos 
o 
. 
. 


1 1 1 1 
60 70 80 90 100 


Valor ajustado 


FIGURA 8.1 Gráfica de residuos contra valores ajustados para los datos goodput. 


Residuos 


| | | | | 
5 10 15 20 25 30 35 40 
Velocidad 


FIGURA 8.2 Gráfica de residuos contra la velocidad para los datos goodput. 
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Residuos 
o 
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50 


FIGURA 8.3 Gráfica de residuos contra pausa para los datos goodput. 


Ejercicios para la sección 8.1 


1. En un experimento para determinar los factores que afectan el ahorro de combustible en camiones se midió el consumo de com- 
bustible (mi/gal), el peso (toneladas) y la lectura de odómetro (miles de millas) en 15 camiones. El siguiente resultado de MI- 
NITAB presenta los resultados del ajuste del modelo millas por galón = f, + $, peso + fB, odómetro. 


The regression equation is 
MPG = 8.24 - 0.108 Weight - 0.00392 Odometer 


Predictor Coef SE Coef 
Constant 8.2407 0.2871 
Weight -0.10826 0.01194 
Odometer -0.0039249 0.001406 
S = 0.3182 R-Sq = 87.8% 
Analysis of Variance 

Source DF SS 
Regression 2 8.720 
Residual Error 12 1.215 
Total 14 9.935 


R=Sq 


7 
28.70 
=9 4D 
LO 


(adj) 


MS 
4.360 
0.101 


43.05 


0.000 
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a) Pronostique las millas por galón para un camión que pesa diez toneladas y tiene una lectura del odómetro de 50 000 millas. 


b) Si los dos camiones tienen el mismo peso y uno tiene 10 000 millas más en el odómetro, ¿qué tanto se predice que difieran 
sus millas por galón? 


c) Si dos camiones tienen la misma lectura del odómetro, y uno pesa cinco toneladas más que el otro, ¿qué tanto se predice 
que difieran sus millas por galón? 


2. Considerando el ejercicio 1. 


a) Determine un intervalo de confianza de 95% para el coeficiente del peso. 
b) Determine un intervalo de confianza de 99% para el coeficiente del odómetro. 
c) ¿Puede concluir que f, < —0.05? Realice la prueba de hipótesis adecuada. 


d) ¿Puede concluir que PB, > —0.005? Realice la prueba de hipótesis adecuada. 


3. En la tabla siguiente se presentan los datos con que se ajusta el modelo del ejercicio 1, junto con los residuos y los valores ajus- 
tados. Grafique los residuos contra los valores ajustados. ¿La gráfica indica que ese modelo lineal es razonable? Explique. 


MPG Peso Odómetro Residuo Valor ajustado 
7.28 10.5 15 0.235 7.045 
5.63 23.0 71 0.158 5.472 
5.26 27.3 36 0.138 5.122 
6.58 14.5 113 0.353 6.227 
5.01 30.5 39 0.224 4.786 
6.73 14.0 97 0.386 6.344 
3.37 21.0 195 0.168 5.202 
7.28 8.5 8 —0.009 7.289 
4.85 26.0 84 0.246 5.096 
5.08 26.5 25 0.194 5.274 
al 15.0 124 0.620 6.130 
4.75 30.0 25 0.145 4.895 
6.03 15.0 75 0.292 6.322 
5.26 22,3 192 0.209 5.051 
5.60 16.0 139 0.363 5.963 


4. El artículo “Application of Analysis of Variance to Wet Clutch Engagement” (M. Mansouri. M. Khonsari y cols., en Procee- 
dings of the Institution of Mechanical Engineers, 2002:117-125) presenta el siguiente modelo ajustado para pronosticar el tiem- 
po que se presiona el clutch en segundos (y) a partir de la velocidad en que se inicia la presión en m/s(x;), el momento de torsión 
máximo de conducción en N - m(x,), la inercia del sistema en kg - m? (x,), y la tasa de la fuerza aplicada en kN/s (xy): 


y = 0.83 + 0.017x, + 0.0895x, + 42.771x3 + 0.027x, — 0.0043x»x, 


La suma de los cuadrados de la regresión fue SSR = 1.08613 y la suma de los cuadrados del error SSE = 0.036310. Había 44 
grados de libertad del error. 


a) Pronostique el tiempo de presión del clutch cuando la velocidad inicial es 20 m/s, el momento de torsión máximo de con- 
ducción es 17 N - m, la inercia de sistema es 0.006 kg - mí, y la tasa de la fuerza aplicada es 10 kN/s. 


b) ¿Es posible pronosticar el cambio en el tiempo de presión relacionado con un aumento de 2 m/s en la velocidad inicial? Si 
es así, encuentre el cambio pronosticado. Si no, explique. 
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c) ¿Es posible predecir el cambio en el tiempo de presión relacionado con un aumento de 2 N - m en el momento de torsión 
máximo? Si es así, encuentre el cambio pronosticado. Si no, explique por qué. 


d) Calcule el coeficiente de determinación R 


e) Calcule el estadístico F para probar la hipótesis nula de que todos los coeficientes son iguales a O. ¿Esta hipótesis puede ser 
rechazada? 


5. En el artículo “Application of Statistical Design in the Leaching Study of Low-Grade Manganese Ore Using Aqueous Sulfur 
Dioxide” (P. Naik, L. Sukla y S. Das, en Separation Science and Technology, 2002:1375-1389), un modelo ajustado para pre- 
decir la extracción de manganeso en % (y) a partir del tamaño de partícula en mm (x;), la cantidad de dióxido de azufre en múl- 
tiplos de la cantidad estequiométrica necesaria para la disolución de manganeso (x») y la duración de la filtración en minutos 
(3) están dadas como 


y = 56.145 — 9.046x, — 33.421x, + 0.243x3 — 0.5963x,x, — 0.0394x,x3 + 0.6022x,x3 
+ 0.69014% + 11.7244x2 — 0.0097x? 


Se tomaron n = 27 observaciones, con SSE = 209.55 y SST = 6 777.5. 


a) Pronostique el porcentaje de extracción cuando el tamaño de partícula es 3 mm, la cantidad de dióxido de azufre 1.5, y la 
duración de la filtración es de 20 minutos. 


b) ¿Es posible predecir un cambio en el porcentaje de extracción cuando la duración de la filtración aumenta en un minuto? 
Si es así, encuentre el cambio pronosticado. Si no, explique. 


c) Calcule el coeficiente de determinación R 


d) Calcule el estadístico F para probar la hipótesis nula de que todos los coeficientes son iguales a 0. ¿Esta hipótesis es recha- 
zable? 


6. El artículo “Earthmoving Productivity Estimation Using Linear Regression Techniques” (S. Smith, en Journal of Construction 
Engineering and Management, 1999:133-141) presenta el siguiente modelo lineal para pronosticar la productividad del movi- 
miento de tierra (en m? movido por hora): 


Productividad = —297.877 + 84.787x, + 36.806x, + 151.680x, — 0.081x, — 110.517x; 
— 0.267x5 — 0.016x,x, + 0.107x,x5 + 0.0009448x,x5 — 0.244x5x% 


donde x, = cantidad de camiones, 


x, = cantidad de cubos por carga, 

x3 = volumen del cubo, en mé 

X4 = longitud de arrastre, en m 

xs = factor de acoplamiento (cociente de la capacidad de arrastre entre la capacidad de carga), 

Xxó = tiempo de viaje en camión, en s 

a) Si el volumen del cubo aumenta en 1 m' mientras que las otras variables independientes permanecen iguales, ¿puede deter- 
minar el cambio pronosticado en la productividad? Si es así, determínelo. Si no, diga qué otra información necesitaría pa- 
ra determinarlo. 


b) Si la longitud de arrastre aumenta en 1 m, ¿puede determinar el cambio pronosticado en la productividad? Si es así, deter- 
mínelo. Si no, diga qué otra información necesitaría para determinarlo. 


7. En un estudio de la función pulmonar de niños, el volumen de aire exhalado por la fuerza en un segundo se llama FEV. (FEV, 
es el volumen de expiración forzada en un segundo.) Se hicieron mediciones en un grupo de niños cada año durante dos años. 
Se ajustó a un modelo lineal para pronosticar los FEV, de estos años como una función del FEV, (en litros) del último año, el 
sexo del niño (0 = masculino, 1 = femenino), la estatura del niño (en m), y la presión atmosférica ambiental (en mm). El si- 
guiente resultado de MINITAB presenta los resultados de ajuste del modelo 
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FEV, = B, + $, Último FEV, + f, Sexo + fB, Estatura + B, Presión + € 


The regression equation is 


FEV1 = -0.219+0.779 Last FEV - 0.108 Gender + 1.354 Height - 0.00134 Pressure 
Predictor Coef SE Coef T Pp 

Constant -0.21947 0.4503 -0.49 0.627 

Last FEV 0.779 0.04909 15.87 0.000 

Gender -0.10827 0.0352 -3.08 0.002 

Height 1.3536 0.2880 4.70 0.000 

Pressure -0.0013431 0.0004722 -2.84 0.005 

S= 0.22039 R=-Sq = 93.5% R-Sqladj) = 93.3% 


Analysis of Variance 


Source DF SS MS F Pp 
Regression d 111.31 21.826 572.89 0.000 
Residual Error 160 7.7716 0.048572 

Total 164 119.08 


a) Pronostique el FEV; para un niño con estatura de 1.4 m, si la medida se tomó a presión de 730 mm y la medición del últi- 
mo año fue 2.113 L. 


b) Si dos niñas difieren en estatura por 5 cm, ¿qué tanto esperaría que sus mediciones de FEV, difieran; los otros conceptos 
siguen igual? 


c) Se estima que el término constante f, es negativo, pero el FEV, debe ser siempre positivo. ¿Algo está erróneo? Explique. 


d) El responsable de este experimento quiere rediseñar el algoritmo que registra las mediciones electrónicamente con el fin de 
ajustar la presión atmosférica automáticamente. Se fija un barómetro al dispositivo para registrar la presión. Utilice el re- 
sultado anterior de MINITAB para determinar cómo calcular un valor FEV, ajustado como función del valor FEV, medi- 
do y de la presión. 


. En relación con el ejercicio 7. 


a) Determine un intervalo de confianza de 95% para el coeficiente del último FEV. 
b) Determine un intervalo de confianza de 98% para el coeficiente de la estatura. 
c) ¿Puede concluir que f, < —0.08? Realice la prueba de hipótesis adecuada. 


d) ¿Puede concluir que $3 > 0.5? Realice la prueba de hipótesis adecuada. 


. El artículo “Drying of Pulps in Sprouted Bed: Effect of Composition on Dryer Performance” (M. Medeiros, S. Rocha y cols., 
Drying Technology, 2002:865-881) presenta mediciones de pH, de viscosidad (kg/m - s), la densidad (g/cm?) y BRIX (%). El 
siguiente resultado de MINITAB presenta los resultados del modelo de ajuste 


pH = f, + f, Viscosidad + fB, Densidad + Pz BRIX + e 
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The regression equation is 


Predictor Coef 
Constant -1.7914 
Viscosity 0.00026626 
Density 9.8184 
BRIX -0.29982 
S = 0.379578 R=SQ 


Predicted Values for New Observations 


New 

Obs FIT SE Fit 
1 3.0875 0.1351 
2 3.7351 0.1483 
3 2.8576 0.2510 


pH = -1.79 + 0.000266 Viscosity + 9.82 Density - 0.300 BRIX 


SE Coef T, Pp 
6.2339 -0.29 0.778 
0.00011517 Laa 0.034 
5.7173 1.72 0.105 
0.099039 -3.03 0.008 

50.0% R-Sqladj) = 40.6% 
95% CI 95% PI 


(2.8010, 3.3740) 
(3.4207, 4.0496) 
(2.3255, 3.3896) 


Values of Predictors for New Observations 


New 

Obs Viscosity Density 
1 1000 1.05 
2 1200 1.08 
3 2000 1.03 


BRIX 
19.0 
18.0 
20.0 


(2.2333, 3.9416) 
(2.8712, 4.5990) 
(1.8929, 3.8222) 


a) Pronostique el pH para una pulpa con viscosidad de 1 500 kg/m - s, densidad de 1.04 g/cm? y BRIX de 17.5%. 


b) Si dos pulpas difieren en densidad por 0.01 g/cm?, ¿qué tanto esperaría que difirieran en pH; los otros conceptos siguen 


igual? 


c) Se estima que el término constante f8, es negativo, pero el pH de pulpa debe ser siempre positivo. ¿Algo está equivocado? 


Explique. 


d) Determine un intervalo de confianza de 95% para la media del pH de las pulpas con viscosidad 1 200 kg/m - s, densidad 


1.08 g/cm* y BRIX 18.0%. 


e) Determine un intervalo de predicción de 95% para el pH de una pulpa con viscosidad 1 000 kg/m - s, densidad 1.05 g/cm* 


y BRIX 19.0%. 


f) La pulpa A tiene viscosidad 2 000, densidad 1.03 y BRIX 20.0. La pulpa B tiene viscosidad 1 000, densidad 1.05 y BRIX 


19.0. ¿Qué pulpa tendrá su pH pronosticado con mayor precisión? Explique. 


. a ] . > A ES 5 x+B 
Una científica ha medido las cantidades, y, x, y x,. Cree que y está relacionado con x, y x, a través de la ecuación y = abc, 
donde ó representa un error aleatorio siempre positivo. Encuentre una transformación de los datos que le permita utilizar un 


modelo lineal para estimar $, y B,. 


El siguiente resultado de MINITAB es para una regresión múltiple. Algo salió mal en la impresión y faltan algunos números. 


Complételos. 
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Predictor Coef SE Coef T Pp 
Constant -0.58762 0.2873 (a) 0.086 
X1 1.5102 (b) 4.30 0.005 
X2 (c) 0.3944 -0.62 0.560 
X3 1.8233 0.3867 (d) 0.003 
S = 0.869 R-Sqg = 90.2% R-Sqladj) = 85.3% 


Analysis of Variance 


Source DF SS MS F IS 
Regression 3 41.76 (e) (f) 0.000 
Residual Error 6 (9) 0.76 

Total (h) 46.30 


. El siguiente resultado de MINITAB es para una regresión múltiple. Algunos de los números se mancharon y son ilegibles. Com- 
plete los números que faltan. 


Predictor Coef SE Coef T Pp 
Constant (a) 1.4553 5.91 0.000 

Xx1 1.2127 (b) 1.71 0.118 

Xx2 7.8369 3.2109 (c) 0.035 

X3 (d) 0.8943 -3.56 0.005 

S = 0.82936 R-Sq = 78.0% R=-Sqladj) = 71.4% 

Source DF SS MS F Pp 
Regression (e) (1) 8.1292 11.818 0.001 
Residual Error 10 6.8784 (9) 

Total 113 (h) 


. El artículo “Evaluating Vent Manifold Inerting Requirements: Flash Point Modeling for Organic Acid-Water Mixtures” (R. 
Garland y M. Malcolm, en Process Safety Progress, 2002:254-260) presenta un modelo para pronosticar el punto de inflama- 
ción (en 9F) de una mezcla de agua, ácido acético, ácido propiónico y ácido butírico a partir de las concentraciones (en % de 
peso) de los tres ácidos. Los resultados son los siguientes. La variable “ácido butírico * ácido acético” es la interacción entre 
la concentración de ácido butírico y la de ácido acético. 


Predictor Coef SE Coef T Pp 
Constant 267.53 11.306 23.66 0.000 
Acetic Acid -1.5926 0.1295 =112..30 0.000 
Propionic Acid -1.3897 0.1260 -11.03 0.000 
Butyric Acid -1.0934 0.1164 -9.39 0.000 
Butyric Acid*Acetic Acid -0.002658 0.001145 ARES 0.034 
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14. 


15. 


16. 


17. 


a) Pronostique el punto de inflamación para una mezcla de 30% de ácido acético y 35% de ácido propiónico, y 30% de ácido 
butírico. (Vota: en el modelo, 30% se representa por 30, no por 0.30.) 


b) Alguien pregunta qué tanto cambiará el punto de inflamación pronosticado si la concentración de ácido acético se aumen- 
ta en 10% mientras que las otras concentraciones se conservan constantes. ¿Es posible responder esta pregunta? Si es así, 
respóndala. Si no, explique. 


c) Alguien pregunta qué tanto cambiará el punto de inflamación pronosticado si la concentración del ácido propiónico aumen- 
ta en 10% mientras que las otras concentraciones se mantienen constantes. ¿Es posible responder esta pregunta? Si es así, 
respóndala. Si no, explique. 


En el artículo “Low-Temperature Heat Capacity and Thermodynamic Properties of 1,1,1-trifluoro-2, 2-dichloroethane” (R. Va- 
rushchenko y A. Druzhinina, en Fluid Phase Equilibria, 2002:109-119), la relación entre la presión de vapor (p) y la capaci- 
dad calorífica (1) está dada como p = 1% -eb*BuBY8, donde Ses un error aleatorio siempre positivo. Exprese esta relación como 
un modelo lineal usando una transformación adecuada. 


Se reunieron los siguientes datos en un experimento para estudiar la relación entre la fuerza de corte en kPa (y) y la tempera- 
tura de endurecimiento en *C (x). 


x | 138 140 146 148 152 153 
y | 5390 5610 5670 5 140 4 480 4130 


El modelo de mínimos cuadrados es y = -291 576.77 + 4 168.6479x — 14.6133933x. 

a) Utilizando esta ecuación, calcule los residuos. 

b) Calcule la suma de los cuadrados del error SSE y la suma total de los cuadrados SST. 

Cc) Calcule la estimación de la varianza del error se. 

d) Calcule el coeficiente de determinación R 

e) Calcule el valor del estadístico F para la hipótesis Hy : f, = f, = 0. ¿Cuántos grados de libertad tiene este estadístico? 


f) ¿La hipótesis Hy : PB, = PB, = 0 puede ser rechazada al nivel de 5%? Explique. 


Se reunieron los siguientes datos en un experimento para estudiar la relación entre el número de libras de fertilizante (x) y la 
cosecha de tomates en busheles (y). 


5 10 15 20 25 
21 27 25 21 


| 
UN 
mm 


El modelo de mínimos cuadrados es y = 4.8000 + 2.508571x — 0.07428571x?. 

a) Utilizando esta ecuación, calcule los residuos. 

b) Calcule la suma de los cuadrados del error SSE y la suma total de los cuadrados SST. 

c) Calcule la estimación de la varianza del error se. 

d) Calcule el coeficiente de determinación R 

e) Calcule el valor del estadístico F para la hipótesis Hp, : fB, = f, = 0. ¿Cuántos grados de libertad tiene este estadístico? 


f) ¿La hipótesis Hy : P, = PB, = O puede rechazarse al nivel de 5%? Explique. 


El 24 de noviembre de 2001, el diario The Economist publicó datos para 15 países industrializados. Se incluyen los cambios 
porcentuales del producto interno bruto (PIB), la producción industrial (PL), los precios al consumidor (PC), y los precios de 
producción (PP) de otoño de 2000 a otoño de 2001, y la tasa de desempleo en otoño de 2001 (DESEMPLEO). Un economis- 
ta quiere construir un modelo para pronosticar el PIB a partir de las otras variables. Un ajuste del modelo 


18. 


19. 
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PIB = f, + f,PI + B,DESEMPLEO + f¿PC + fB,PP + € 


produce el siguiente resultado: 


The regression equation is 

GDP = 1.19 + 0.17 IP + 0.18 UNEMP + 0.18 CP - 0.18 PP 
Predictor Coef SE Coef T P 
Constant 1.18957 0.42180 2.82 0.018 
IP 0.17326 0.041962 4.13 0.002 
UNEMP 0.17918 0.045895 3.90 0.003 
CP 0.17591 0.11365 1.55 0.153 
Pp -0.18393 0.068808 -2.67 0.023 


a) Pronostique el cambio porcentual en el PIB para un país con PI = 0.5, DESEMPLEO = 5.7, PC = 3.0, y PP = 4.1. 

b) Si los dos países difieren en tasa de desempleo por 1%, ¿qué tanto predeciría que cambie el porcentaje del PIB; los otros 
conceptos siguen igual? 

c) PC y PP son medidas de la tasa de inflación. ¿Cuál es más útil para predecir el PIB? Explique. 


d) El índice de precios de producción para Suecia en septiembre de 2000 era 4.0, y para Austria, 6.0. Los otros conceptos si- 
guen igual, ¿para qué país esperaría el mayor cambio porcentual en el PIB? Explique. 


El artículo “Multiple Linear Regression for Lake Ice and Lake Temperature Characteristics” (S. Gao y H. Stefan, en Journal 
of Cold Regions Engineering, 1999:59-77) presenta datos del espesor máximo de hielo en mm (y), el número promedio de días 
por año cubiertos de hielo (x;,), y el número promedio de días en que la temperatura inferior es menor de 8*C (x>), y la profun- 
didad de nieve promedio en mm (x3) para 13 lagos en Minnesota. Los datos se presentan en la tabla siguiente. 


y X1 X X3 y X1 X2 X3 
730 152 198 91 730 157 204 90 
760 173 201 sl 650 136 172 47 
850 166 202 69 850 142 218 59 
840 161 202 12 740 151 207 88 
720 152 198 91 720 145 209 60 
730 153 205 91 710 147 190 63 
840 166 204 70 


a) Ajuste el modelo y = f, + Bix, + Pax, + P3x3 = e. Encuentre el P-valor de cada coeficiente para probar la hipótesis nula 
de que el coeficiente es igual a O. 


b) Si dos lagos difieren en dos en el número promedio de días por año cubiertos de hielo, con las otras variables permanecien- 
do constantes, ¿qué diferencia esperaría entre sus capas de hielo máximas? 


c) ¿Los lagos con media de profundidad de nieve mayor tenderían a tener espesores de hielo máximo mayores o menores? Ex- 
plique. 


En un experimento para estimar la aceleración de un objeto hacia abajo de un plano inclinado, aquél se suelta y su distancia en 
metros (y) desde la parte superior del plano se mide cada 0.1 segundo a partir del tiempo £ = 0.1 at = 1.0. En la tabla siguien- 
te se presentan los datos. 
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t y 
0.1 0.03 
0.2 0.1 
0.3 0.27 
0.4 0.47 
0.5 0.73 
0.6 1.07 
0.7 1.46 
0.8 1.89 
0.9 2.39 
1.0 2.95 


Los datos siguen el modelo cuadrático y = fi, + ft + Pr” + e, donde f, representa la posición inicial del objeto, $, la velo- 
cidad inicial del objeto, y PB, = a/2, donde a es la aceleración del objeto, que se supone constante. En un experimento perfec- 
to, tanto la posición como la velocidad del objeto serían cero al tiempo 0. Sin embargo, debido al error experimental, es posible 
que la posición y la velocidad en £ = O sean diferentes de cero. 

a) Ajuste el modelo cuadrático y = f, + Bt + Bat? + e. 

b) Determine un intervalo de confianza de 95% para P. 

c) Determine un intervalo de confianza de 95% para la aceleración a. 

d) Calcule el P-valor para cada coeficiente. 

e) ¿Puede concluir que la posición inicial no fue cero? Explique. 


f) ¿Puede concluir que la velocidad inicial no fue cero? Explique. 


8.2 Confusión y colinealidad 


El subtítulo de esta sección es “Ajustar modelos por separado para cada variable no es lo mis- 
mo que ajustar el modelo multivariado”. Para ilustrar de qué se está hablando, se revisan los 
datos del pozo de gas, descrito por vez primera en el ejercicio 15 de la sección 7.3. Un total 
de 255 pozos de gas recibieron “tratamiento de fractura” para incrementar la producción. En 
este tratamiento, el fluido fracturado, fluido mezclado con arena, se bombea al pozo. La are- 
na abre grietas en la roca, lo que incrementa el flujo del gas. Las preguntas principales son és- 
tas: ¿Al aumentar el volumen de fluido bombeado crece la producción del pozo? ¿Al 
aumentar el volumen de arena se aumenta la producción del pozo? 

Los pozos de mayor profundidad producen más gas porque proporcionan más superfi- 
cie a través de la cual penetra el gas. Por esa razón es adecuado expresar todas las variables 
en unidades por pie de profundidad del pozo. Por tanto, se mide la producción en unidades de 
pie? de gas por pie de profundidad, el fluido en unidades de gal/pie, y la arena en unidades 
de lb/pie. 

En la figura 7.17 (de la sección 7.4) se mostró que se necesitaba una transformación lo- 
garitmo para obtener homocedasticidad en la gráfica de producción contra fluido. Se indicó 
que también se requiere una transformación logaritmo para la variable arena. La figura 8.4 
muestra los diagramas de dispersión de In Producción contra In Fluido y In Producción con- 
tra In Arena. Tanto el fluido como la arena parecen estar fuertemente relacionados con la pro- 
ducción. 
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In Producción 
In Producción 


In Fluido In Arena 
a) b) 


FIGURA 8.4 a) Gráfica del logaritmo de la producción contra el logaritmo del volumen de fluido fracturado para 255 po- 
zos de gas, con la recta de mínimos cuadrados sobrepuesta. b) Gráfica del logaritmo de la producción contra el logaritmo 
del peso de arena para los mismos 255 pozos. Parecen existir fuertes relaciones lineales entre el logaritmo de la producción 
tanto con el logaritmo de fluido como con el logaritmo de arena. 


Para confirmar el resultado aparente de las gráficas en la figura 8.4 se ajustan dos mo- 
delos de regresión lineal simple: 


In Producción = fp, + 6; ln Fluido + e 
In Producción = fB, + 6, ln Arena + € 


El resultado MINITAB para estos modelos es el siguiente: 


The regression equation is 
In Prod = -0.444 + 0.798 In Fluid 


Predictor Coef SE Coef T Pp 
Constant -0.4442 0.5853 -0.76 0.449 
ln Fluid 0.79833 0.08010 9.97 0.000 
S=.0.7459 R-Sq = 28.2% R-Sqladj) = 27.9% 


The regression equation is 
ln Prod = -0.778 + 0.748 In Sand 


Predictor Coef SE Coef T Pp 
Constant -0.7784 0.6912 SS 0.261 
In Sand 0.74751 0.08381 8.92 0.000 


II 
NN) 
wm 
o2] 
SS 


S = 0.7678 R=Sq = 23.9% R=Sqladj) 
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Tanto el fluido como la arena tienen coeficientes que son definitivamente diferentes de 
0 (los P-valores para ambos son = 0). Por tanto, se podría intentar concluir inmediatamente 
que al aumentar el volumen de fluido o el volumen de arena bombeada en un pozo se aumen- 
tará la producción, pero primero se debe considerar la posibilidad de confusión. 

La cuestión de confusión surge de esta manera. Fluido y arena se bombean dentro jun- 
tos en una sola mezcla. Es lógico esperar que los pozos que tienen más fluido también tien- 
den a tener más arena. Si esto último es verdadero, entonces la confusión es una posibilidad. 
La figura 8.5 presenta el diagrama de dispersión de ln Fluido contra ln Arena. Se tiene bas- 
tante seguridad de que la cantidad de fluido bombeada en un pozo está muy correlacionada 
con la cantidad de arena bombeada. Por tanto, es muy posible que cualquiera de los dos re- 
sultados univariados que se presentaron antes pudieran representar confusión en lugar de una 
relación real. Si la producción depende solamente del volumen de fluido, aún habrá una rela- 
ción entre los datos entre la producción y la arena. Si la producción depende solamente del 
volumen de arena, aún habrá una relación en los datos entre la producción y el fluido. 
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FIGURA 8.5 Diagrama de dispersión de In Fluido contra ln Arena para 255 pozos de gas. Evi- 
dentemente hay una fuerte relación lineal. Por tanto, las relaciones aparentes entre fluido o arena 
y producción podrían representar un confusión en lugar de una causalidad. 


La regresión múltiple proporciona una manera de resolver la cuestión. El siguiente re- 
sultado de MINITAB corresponde al modelo 


In Producción = f, + 6, ln Fluido + 6, In Arena + e (8.11) 
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The regression equation is 
ln Prod = -0.729 + 0.670 In Fluid + 0.148 In Sand 


Predictor Coef SE Coef T Pp 
Constant -0.7288 0.6719 -1.08 0.279 
ln Fluid 0.6701 0.1687 3.97 0.000 
In Sand 0.1481 0.1714 0.86 0.389 
S= 0.7463 R-Sq = 28.4% R=-Sqladj) = 27.8% 


Se puede ver que el coeficiente de In Fluido es significativamente diferente de O, pero 
el coeficiente de ln Arena no lo es. Si se supone que no hay otra confusión (por ejemplo, con 
la posición de los pozos), se puede concluir que el aumento en la cantidad de fluido tiende a 
aumentar la producción, pero no está claro que el aumento en la cantidad de arena tiene un 
efecto. Por tanto, se podría aumentar la cantidad de fluido, pero podría ser innecesario agre- 
garle más arena. 

Una observación final: ninguno de los modelos tiene un valor particularmente alto de 
R?. Lo anterior indica que hay otros factores importantes que afectan la producción y que no 
se han incluido en los modelos. En un análisis más completo, se intentaría identificar y me- 
dir algunos de estos factores para construir un modelo con el potencial de predicción mayor. 


Colinealidad 


Cuando dos variables independientes están muy fuertemente correlacionadas la regresión 
múltiple no puede ser capaz de determinar cuál es la importante. En este caso, se dice que las 
variables son colineales. La palabra colineal significa que se encuentra en la misma línea, y 
cuando dos variables están muy correlacionadas su diagrama de dispersión es casi una línea 
recta. También a veces se utiliza la palabra multicolinealidad. Cuando la colinealidad está 
presente, se dice a veces que el conjunto de variables independientes está mal condicionado. 
La tabla 8.2 de la página 578 presenta algunos datos hipotéticos que muestran el fenómeno 
de colinealidad. 
Primero se ajustan los modelos lineales simples 


y = Bot Bix +€ 
y = Po + Bin + € 
El siguiente resultado de MINITAB muestra que tanto x, como x, tienen una fuerte relación 


lineal con y. Los valores de r? están ambos alrededor de 0.96, por lo que las correlaciones r 
entre x, y y y entre x, y y están ambos alrededor de 0.98. 
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TABLA 8.2 Datos colineales 


X1 X2 y 
0.1 0.3 3.6 
0.2 0.2 0.3 
0.6 1.4 6.0 
1.4 3.4 10.6 
2.0 32, 8.4 
2.0 5.5 11.8 
2.1 10 12.7 
2.1 5.3 6.8 
2.8 7.4 9.9 
3.6 9.4 16.7 
4.2 10.3 16.3 
4.5 11.4 19.9 
4.7 13 20.2 
5.3 13.6 22.9 
6.1 15.3 26.6 
6.8 17.4 28.1 
7.5 18.5 31.0 
8.2 20.4 28.8 
8.5 21.3 32.4 
9.4 23.3 35.0 


The regression equation ¡is 
Y = 2.90 + 3.53 X1 


Predictor Coef SE Coef Y Pp 
Constant 2.8988 0.8224 SD 0.002 
Xx1 3.5326 0.1652 21.38 0.000 
S= 2.080 R-Sq = 96.2% R-Sqladj) = 96.0% 


The regression equation is 
Y = 2.74 + 1.42 X2 


Predictor Coef SE Coef T Pp 
Constant 2.7431 0.8090 3.39 0.003 
X2 1.42024 0.06485 21.90 0.000 
S= 2.033 R=-Sq = 96.4% R=-Sqladj) = 96.2% 


La figura 8.6 presenta el diagrama de dispersión de x, contra x,. Evidentemente hay una 
fuerte relación lineal, por lo que se sospecha que y podría tener realmente una relación con 
sólo una de estas variables, con lo demás enredado. 
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FIGURA 8.6 Las variables independientes x, y x, son colineales porque tienen una fuerte rela- 
ción lineal. 


Por tanto, se ajusta el modelo de regresión múltiple 
y = Bo+ Pix + Box + € 


El resultado MINITAB es el siguiente. 


The regression equation is 
Y = 2.72 - 0.49 X1 + 1.62 X2 


Predictor Coef SE Coef T Pp 
Constant 2.7248 0.8488 321 0.005 
X1 -0.490 4.460 -0.11 0.914 
X2 1.617 1.791 0.90 0.379 
S= 2.091 R-Sq = 96.4% R-Sqladj) = 96.0% 


Sorprendentemente, el resultado parece indicar que ni x, ni x, están linealmente relacio- 
nados con y, ya que ambos tienen P-valores grandes. Lo que está ocurriendo es que la rela- 
ción lineal entre x, y x, es tan fuerte que resulta imposible determinar cuál de los dos es 
responsable de la relación lineal con y. Visto de esta manera, los P-valores grandes tienen sen- 
tido. Es creíble que el coeficiente de x, sea O y que solamente x, tenga una relación real con 
y. Por tanto, el P-valor para x, debe ser grande. Igual, es creíble que el coeficiente de x, es O y 
que sólo x, tiene una relación real con y. Por tanto, el P-valor para x, también debe ser grande. 

En general, no hay mucho que se pueda hacer cuando las variables son colineales. La 
única buena manera de arreglar la situación es reunir más datos, incluyendo algunos valores 
para las variables independientes que no están en la misma línea recta. Entonces la regresión 
múltiple será capaz de determinar cuáles de las variables son realmente importantes. 
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Ejercicios para la sección 8.2 


1. En un experimento para determinar los factores relacionados con la dureza de las soldaduras se midió la dureza de impacto de 
la muesca Charpy V pies - 1b (y) para 22 soldaduras a 0*C, junto con la expansión lateral en la muesca en % (x;), y la superfi- 
cie frágil en % (x,). En la siguiente tabla se presentan los datos. 


y X1 X y X1 X2 y X1 X 
32 20.0 28 27 16.0 29 2) 14.6 36 
39 23.0 28 43 26.2 27 25 10.4 29 
20 12.8 32 2% 9.6 32 20 11.6 30 
21 16.0 29 22 15:2 32 20 12.6 31 
25 10.2 31 18 8.8 43 24 16.2 36 
20 11.6 28 32 20.4 24 18 9.2 34 
32 17.6 25 22 12.2 36 28 16.8 30 
29 17.8 28 


a) Ajuste el modelo y = f, + f,x, + e. Para cada coeficiente, pruebe la hipótesis nula que es igual a 0. 


b) Ajuste el modelo y = f, + fix, + e. Para cada coeficiente, pruebe la hipótesis nula que es igual a 0. 


c) Ajuste el modelo y = f, + Bix, + Box, + €. Para que cada coeficiente pruebe que la hipótesis nula es igual a 0. 


d) ¿Cuál de los modelos de los incisos a) al c) es el mejor? ¿Cómo justifica su respuesta? 


2. En una prueba de laboratorio de un nuevo diseño de motor se midió la tasa de emisiones (en mg/s de óxidos de nitrógeno, NO.) 
como una función de la velocidad de motor (en rpm), del momento de torsión del motor (en pies - 1b), y de los caballos de fuer- 
za totales. (De “In-Use Emissions from Heavy-Duty Diesel Vehicles”, J. Yanowitz, tesis de doctorado, Escuela de Minas, de 
Colorado, 2001). El resultado de MINITAB se presenta para los siguientes tres modelos: 


NO, = Bj, + fi Velocidad + fB, Momento de torsión + e 
NO, = fp + f, Velocidad + fB, HP + € 


NO, = fp + 6 Velocidad + f, Momento de torsión + Pz HP + € 


The regression equation is 
NOx = -321 + 0.3/8 Speed - 0.160 Torque 


Predictor Coef SE Coef T Pp 
Constant -320.59 98.14 eS 0.003 
Speed 0.37820 0.06861 5.51 0.000 
Torque -0.16047 0.06082 -2.64 0.013 


SS La R-=Sq = 51.6% R=-Sqladj) = 48.3% 


The regression equation is 
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NOx = -380 + 0.416 Speed - 0.520 HP 

Predictor Coef SE Coef T Pp 
Constant -380.1 104.8 -3.63 0.001 
Speed 0.41641 0.07510 5,54 0.000 
HP -0.5198 0.1980 -2.63 0.014 
$ =::067.19 R=-Sq = 51.5% R=Sqladj) = 48.2% 
The regression equation is 

NOx = -302 + 0.366 Speed - 0.211 Torque + 0.16 HP 
Predictor Coef SE Coef T Pp 
Constant -301.8 347.3 -0.87 0.392 
Speed 0.3660 0.2257 1.62 0.116 
Torque -0.2106 0.8884 -0.24 0.814 
HP 0.164 2.889 0.06 0.955 
S = 68.31 R=Sq = 51.6% R=Sqladj) = 46.4% 


De las variables velocidad, momento de torsión y HP, ¿cuáles dos son más cercanamente colineales? ¿Cómo justifica su res- 
puesta? 


. Dos ingenieros químicos, A y B, están trabajando de manera independiente para desarrollar un modelo que pronostique la vis- 


cosidad de un producto (y) a partir del pH (x,) y la concentración de cierto catalizador (x,). Cada ingeniero ha ajustado al mo- 
delo lineal 


y = Bo + Bix + Box, + e. 


Los ingenieros le han enviado el resultado MINITAB que resume sus resultados 


Engineer A 

Predictor Coef SE Coef T Pp 
Constant 199.2 0.5047 394.7 0.000 
pH -1.569 0.4558 -3,44 0.007 
Concent. -4.730 0.5857 -8.08 0.000 
Engineer B 

Predictor Coef SE Coef T Pp 
Constant 199.0 0.548 363.1 0.000 
pH -1.256 1.983 -0.63 0.544 
Concent. -3.636 1.952 -1.86 0.112 


Los ingenieros también le han enviado los siguientes diagramas de dispersión de pH contra la concentración, pero olvida- 


ron poner sus nombres en ellos. 
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a) ¿Qué gráfica proviene de cada ingeniero? ¿Cómo justifica su respuesta? 


b) ¿Cuál experimento produce los resultados más confiables? Explique. 


. El artículo “Influence of Freezing Temperature on Hydraulic Conductivity of Silty Clay” (J. Konrad y M. Samson, en Journal 
of Geotechnical and Geoenvironmental Engineering, 2000:180-187) describe un estudio de los factores que afectan la conduc- 
tancia hidráulica de suelos. Las mediciones de esta última en unidades de 10”* cm/s (y), cociente inicial vacío (x,) y el cocien- 
te de deshielo vacío (x,) para 12 elementos de arcilla cenagosa se presentan en la tabla siguiente. 


y [101 112 104 130 1.01 1.04 0.955 1.15 123 128 1.23 1.30 
x1 | 0.84 0.88 0.85 0.95 0.88 0.86 0.85 0.89 0.90 0.94 0.88 0.90 
x, | 0.81 0.85 0.87 0.92 0.84 0.85 0.85 0.86 0.85 0.92 0.88 0.92 


a) Ajuste el modelo y = B, + fx; 
b) Ajuste el modelo y = By + fix» 
c) Ajuste el modelo y = fB, + Bix; 


+ €. Para cada coeficiente pruebe la hipótesis nula que es igual a 0. 


+ €. Para cada coeficiente, pruebe la hipótesis nula que es igual a 0. 


+ Pax, + e. Para cada coeficiente pruebe la hipótesis nula que es igual a 0. 


d) ¿Cuál de los modelos de los incisos a) al c) es el mejor? ¿Cómo justifica su respuesta? 


. En relación con el ejercicio 8 de la sección 7.4. 


a) Divida los datos en dos grupos: los puntos donde R, < 4 en un grupo, los puntos donde R, = 4 en los otros. Calcule la rec- 
ta de mínimos cuadrados para pronosticar R, a partir de R; para cada grupo. (Usted ya hizo esto si realizó el ejercicio 8c en 
la sección 7.4.) 


b) Para uno de los dos grupos la relación es obviamente no lineal. Para este grupo, ajuste un modelo cuadrático (es decir, uti- 
lizando R, y Rf como variables independientes), un modelo cúbico y otro cuártico. Calcule los P-valores para cada uno de 
los coeficientes en cada uno de los modelos. 


c) Grafique los residuos contra los valores ajustados para cada uno de los tres modelos del inciso b). 
d) Calcule el coeficiente de correlación entre R y Rf, y realice un diagrama de dispersión de los puntos (R;, Rf). 


e) Con base en el coeficiente de correlación y en el diagrama de dispersión, explique por qué son muy diferentes los P-valo- 
res para el modelo cuártico que para el cúbico. 


) ¿Cuál de los tres modelos del inciso b) es más adecuado? ¿Por qué? 
¿ ¿ q 
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6. La tabla siguiente lista valores para tres variables medidas para 60 erupciones consecutivas del géiser Old Faithful en el Par- 
que Nacional Yellowstone. Estas son las duraciones de la erupción (x;,), las duraciones del periodo de inactividad inmediata- 
mente anterior a la erupción (x>) y las duraciones del periodo de inactividad inmediatamente después de la erupción (y). Todos 
los tiempos están en minutos. (La variable x, se presentó en el ejercicio adicional 3 del capítulo 7.) 


X1 *X2 y X4 X2 y Xy X y X1 X2 y 
3.5 80 84 1.8 42 91 4.7 88 51 4.1 70 79 
4.1 84 50 4.1 91 51 1.8 51 80 3.7 79 60 
2.3 50 93 1.8 51 79 4.6 80 49 3.8 60 86 
4.7 93 55 3.2 79 53 1.9 49 82 3.4 86 71 
17 55 76 1.9 53 82 3 82 75 40 ll 67 
4.9 76 58 4.6 82 51 4.0 75 73 2.3 67 81 
1.7 58 74 2.0 51 76 3.7 73 67 4.4 8l 76 
4.6 74 75 4.5 76 82 34 67 68 4.1 76 83 
3.4 75 80 3.9 82 84 4.3 68 86 4.3 83 76 
4.3 80 56 4.3 84 53 3.6 86 72 3.3 76 55 
1.7 56 80 2:3 53 86 3.8 7 75 2.0 55 73 
3.9 80 69 3.8 86 51 3.8 75 75 4.3 73 56 
3.7 69 57 1.9 51 85 3.8 75 66 2.9 56 83 
3.1 57 90 4.6 85 45 2.3 66 84 4.6 83 57 
4.0 90 42 1.8 45 88 4.5 84 70 1.9 57 71 


a) Calcule la recta de mínimos cuadrados para predecir la duración del periodo de inactividad seguido de una erupción (y) a 
partir de la duración de la erupción (x,). ¿Existe una relación lineal entre la duración de una erupción y el tiempo de espe- 
ra hasta que ocurre la próxima erupción? 


b) Calcule la recta de mínimos cuadrados para pronosticar la duración del periodo de inactividad seguido de una erupción (y) 
a partir de la duración del que precede a la erupción (x,). (Usted ya hizo esto si realizó el ejercicio adicional 3 del capítulo 
7. Los resultados en este problema son ligeramente diferentes, debido a que hay 60 puntos en lugar de 59.) ¿Hay una rela- 
ción lineal entre la duración del periodo de inactividad que precede a una erupción y el tiempo de espera hasta que ocurre 
la próxima erupción? 

c) Ajuste al modelo de regresión múltiple que incluya tanto la duración de la erupción x, como la duración del periodo de inac- 
tividad que precede a la erupción x, como variables independientes. 


d 


*— 


Si usted pudiera encontrar el valor ya sea de x, o de x, pero no de ambos, ¿cuál querría conocer para pronosticar y? ¿Ayu- 
daría mucho conocer al otro también? Explique. 


8.3 Selección de modelos 


Hay muchas situaciones en las que se han medido bastantes variables independientes; se ne- 
cesita decidir cuáles implican un modelo. Éste es el problema de selección de modelos, el cual 
es difícil. En la práctica con frecuencia se realiza la selección de modelos usando métodos ad 
hoc, con la guía de toda la intuición física disponible. No se intenta realizar un análisis com- 
pleto de este extenso y difícil tema. En vez de eso, se limita a establecer algunos principios 
básicos y presentar ejemplos. Se puede consultar un texto avanzado como el de Miller (2002) 
para información acerca de métodos específicos. 
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La buena selección de modelos se basa en un principio básico conocido como navaja de 
Occam. Este principio se enuncia de la siguiente manera: 


La navaja de Occam 
El mejor modelo científico es el modelo más simple que explica los hechos observados. 


En términos de modelos lineales, la navaja de Occam implica el principio de parsimonia: 


El principio de parsimonia 
Un modelo debe contener el menor número de variables necesario para ajustar los 
datos. 


Existen algunas excepciones al principio de parsimonia: 


1. Un modelo lineal siempre debe contener un intercepto, a menos que una teoría fí- 
sica indique otra cosa. 

2. Si una potencia x”" de una variable se incluye en un modelo, también estarán in- 
cluidas todas las potencias inferiores e, co AL a menos que una teoría física 
indique lo contrario. 

3. Si un producto Xx; de dos variables está incluido en un modelo, entonces las va- 
riables x, y x; también deben estar incluidas por separado, a menos que una teoría 
física indique algo distinto. 


Los modelos que sólo contienen las variables necesarias para ajustar los datos se llaman par- 
simoniosos. Gran parte del trabajo práctico de la regresión múltiple implica su desarrollo. 

Con el siguiente ejemplo se muestra el principio de parsimonia. Los datos en la tabla 
8.3 se tomaron del artículo “Capacities and Performance Characteristics of Jaw Crushers” ($. 
Sastri, en Minerals and Metallurgical Processing, 1994:80-86). Se midieron tasas de alimen- 
tación y de potencia para varias trituradoras de quijada industriales. 


TABLA 8.3 Tasas de alimentación y potencia para trituradoras de quijada industriales 


Tasa de Tasa de Tasa de Tasa de 
alimentación Potencia | alimentación Potencia || alimentación Potencia || alimentación Potencia 

(100 t/h) (kv) (100 t/h) (kw) (100 t/h) (kw) (100 t/h) (kw) 
0.10 11 0.20 15 0.91 45 1.36 58 
1,55 60 2.91 84 0.59 12 2.36 45 
3.00 40 0.36 30 0.27 24 2.95 13 
3.64 150 0.14 16 0.55 49 1.09 44 
0.38 69 0.91 30 0.68 45 0.91 58 
1.59 717 4.27 150 4.27 150 2.91 149 
4.73 83 4.36 144 3.64 100 
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El siguiente resultado MINITAB presenta los resultados para ajustar el modelo 


Potencia = 6, + f, Tasa de Alimentación + € (8.12) 


The regression equation is 
Power = 21.0 + 24.6 FeedRate 


Predictor Coef SE Coef T Pp 
Constant 21.028 8.038 2.62 0.015 
FeedRate 24.595 3.338 7.3Í 0.000 
S= 26.20 R-Sq = 68.5% R=-Sqladj) = 67.2% 


A partir del resultado se observa que el modelo ajustado es 
Potencia = 21.028 + 24.595 Tasa de Alimentación (8.13) 


y que el coeficiente para la Tasa de Alimentación es significativamente diferente de O (1 = 
7.37, P = 0). Ahora la pregunta es si un modelo cuadrático pudiese ajustar mejor que este li- 
neal. Así que se ajusta 


Potencia = f, + fP, Tasa de Alimentación + fB, Tasa de Alimentación” + e (8.14) 


Los resultados se presentan en el siguiente resultado de MINITAB. Observe que los valores 
para el intercepto y del coeficiente de la Tasa de Alimentación son diferentes que cuando es- 
taban en el modelo lineal. Esto es típico. El agregar una nueva variable a un modelo podría 
cambiar considerablemente los coeficientes de las variables que ya estaban en el modelo. 


The regression equation is 
Power = 19.3 + 27.5 FeedRate -0.64 FeedRate”2 


Predictor Coef SE Coef T Pp 
Constant 19.34 11.56 1.67 0.107 
FeedRate 27.47 14.31 1.92 0.067 
FeedRate”2 -0.6387 3.090 -0.21 0.838 
S= 26.72 R-Sq = 68.5% R=-Sqladj) = 65.9% 


El punto más importante que debe observarse es que el P-valor para el coeficiente de 
Tasa de Alimentación” es mayor de (0.838). Recuerde que este P-valor es para la prueba de la 
hipótesis nula de que el coeficiente es igual a O. Por tanto, los datos no proporcionan eviden- 
cias de que el coeficiente de Tasa de Alimentación” sea diferente de O. Observe también que 
incluyendo Tasa de Alimentación? en el modelo se aumenta sólo ligeramente el valor del es- 
tadístico de bondad del ajuste R?, en forma tan ligera que los primeros tres dígitos son igua- 
les. En este sentido, no hay evidencias de que el modelo cuadrático ajuste mejor los datos que 
el modelo lineal, así que junto con el principio de parsimonia se debe preferir el modelo lineal. 
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La figura 8.7 proporciona una ilustración gráfica del principio de parsimonia. Se pre- 
senta el diagrama de dispersión de la potencia contra la tasa de alimentación, y ambas rectas 
de mínimos cuadrados (8.13) y el modelo cuadrático (8.14) están sobrepuestos. Aunque los 
coeficientes de los modelos son diferentes, se puede advertir que las dos curvas son casi idén- 
ticas. No hay razón para incluir el término cuadrático en el modelo. Esto último hace que el 
modelo sea más complicado, sin que mejore el ajuste. 
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FIGURA 8.7 Diagrama de dispersión de potencia contra tasa de alimentación para 27 triturado- 
ras de quijada industriales. La recta de mínimos cuadrados y la del mejor ajuste de modelo cua- 
drático están sobrepuestas. Las dos curvas son prácticamente idénticas, lo que refleja el hecho de 
que el coeficiente de Tasa de Alimentación? en el modelo cuadrático no es significativamente di- 
ferente de O. 


Determinando si se pueden eliminar variables de un modelo 


Con frecuencia ocurre que se ha formado un modelo con muchas variables independientes, y 
que se desea determinar si un subconjunto en particular de ellas se puede eliminar del mode- 
lo sin reducir significativamente la precisión de éste. Para ser más específico, suponga que se 
conoce que el modelo 


Y = Pp + Bit + + E Pa + Puan + + PAE (8.15) 


es correcto, en lo que respecta a representar la relación verdadera entre las variables x y y. Se 
llamará a éste el modelo “completo”. 
Se desea probar la hipótesis nula 


Ho: Piar ="""=PB,=0 


Si A, es verdadera, el modelo permanecerá correcto si se eliminan las variables x,,;,...,X,, 
0 k+1 Pp 
por lo que se puede reemplazar el modelo completo con el siguiente modelo reducido: 


Y = Bo + Bix +00 + Bix + €; (8.16) 
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El desarrollo de un estadístico de prueba para H,, se inicia calculando la suma de cuadra- 
dos del error tanto para el modelo completo como para el reducido. Se denotarán por SSE4ompleto 
y SSEveducido: El número de grados de libertad para SSE.ompleio € NM — p — 1, y el número de 
grados de libertad para SSEeducido €S M7 k= 1. 

Ahora, puesto que el modelo completo es correcto, se sabe que la cantidad SSE.ompleto/ 
(n — p — 1) es un estimador de la varianza del error a”; en efecto, es exactamente s”. Si H, es 
verdadera, entonces el modelo reducido también es correcto, así que la cantidad SSE reducido! 
(n — k — 1) es también un estimador de la varianza del error. Intuitivamente, SSE.ompleto EStá 
cerca de (n — p — Do?, y si A, es verdadera, SSEeducig, está cerca de (n — k — 1)a?. Por lo que 
si A, es verdadera, la diferencia (SSEreducido — SSEcomplero) €S CErcana a (p — Ka”, por lo que el 
(SSEreducido 7 SSEcomplero HP — K) está cerca de a”. El estadístico de prueba es 


al (SSEreducido == SSE-completo) / (P > k) 


/ SSEcompleto/ (N ee 1) 


(8.17) 


Ahora, si A, es verdadera, tanto el numerador como el denominador de £ son estimadores de 
a”, por lo que f está probablemente cerca de 1. Si A, es falsa, la cantidad SSEeduciao tiende a 
ser más grande, por lo que el valor de ftiende a ser mayor. El estadístico fes un estadístico 
F; su distribución nula es F, ¿1 -p-1: 

El método recién descrito es muy útil en la práctica para desarrollar modelos parsimo- 
niosos eliminando las variables superfluas. Sin embargo, las condiciones en las que esto es 
formalmente válido rara vez se encuentran en la práctica. Primero, es raro el caso que el mo- 
delo completo sea correcto; habrá cantidades no aleatorias que afectan el valor de la variable 
dependiente y que no se consideran para las variables independientes. Segundo, para que el 
método sea formalmente válido, el subconjunto de variables que se eliminará debe determi- 
narse independientemente de los datos. Éste por lo general no es el caso. Más a menudo, 
cuando un modelo grande se ajusta, algunas de las variables se ve que tienen realmente P-va- 
lores grandes, y se utiliza la prueba F' para determinar si se debe eliminar del modelo. Como 
se ha dicho, ésta es una técnica útil en la práctica, pero, de la misma manera que la mayoría 
de los métodos de la selección de modelos, debe verse como una herramienta informal en vez de 
un procedimiento riguroso basado en la teoría. 

Se muestra el método con un ejemplo. En redes ad hoc de computadoras móviles, los 
mensajes deben enviarse de computadora a computadora hasta que alcanzan su destino. La so- 
brecarga de datos es el número de bytes de información que se deben transmitir junto con los 
mensajes para llegar a las posiciones correctas. Un protocolo exitoso generalmente tiene una 
sobrecarga de datos menor. La tabla 8.4 presenta la velocidad promedio, el tiempo de espera, 
la razón de cambio de enlace (LCR), y la sobrecarga de datos para 25 redes de computadoras 
simuladas. La razón de cambio de enlace para una computadora en particular es la razón en la 
que las otras computadoras en la red entran y dejan el rango de transmisión de la computado- 
ra dada. Estos datos fueron generados para un estudio publicado en el artículo “Metrics to Ena- 
ble Adaptive Protocols for Mobile Ad Hoc Networks” (J. Boleng, W. Navidi y T. Camp, en 
Proceedings of the 2002 International Conference On Wireless Networks, 2002:293-298). 

Se inicia ajustando un modelo realmente grande para estos datos, a saber, 


Sobrecarga = B, + f, LCR + PB, Velocidad + BP, Pausa + fB, Velocidad - Pausa 
+ B¿LCR? + f, Velocidad? + B, Pausa? + € 
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TABLA 8.4 Sobrecarga de datos, velocidad, tiempo de pausa, y razón de cambio 
de enlace por una red de computadoras móviles 


Tiempo de Sobrecarga Tiempo de Sobrecarga 
Velocidad pausa LCR de datos [Velocidad pausa LCR de datos 
(m/s) (s) (100/s) (kB) (m/s) (s) (100/s) (kB) 
5 10 9.426 428.90 20 40 12.117 501.48 
5) 20 8.318 443.68 20 50 10.284 519.20 
5 30 7.366 452.38 30 10 33.009 445.45 
5 40 6.744 461.24 30 20 22.125 489.02 
5 50 6.059 475.07 30 30 16.695 506.23 
10 10 16.456 446.06 30 40 13.257 516.27 
10 20 13.281 465.89 30 50 11.107 508.18 
10 30 11,155 477.07 40 10 37.823 444.41 
10 40 9.506 488.73 40 20 24.140 490.58 
10 50 8.310 498.77 40 30 17.700 511.35 
20 10 26.314 452.24 40 40 14.064 523.12 
20 20 19.013 475.97 40 50 11.691 523.36 
20 30 14.725 499.67 


Los resultados del ajuste a este modelo son los siguientes. 


The regression equation is 
Overhead = 368 + 3.48 LCR + 3.04 Speed + 2.29 Pause - 0.0122 Speedx*Pause 


-0.1041 LCR*2 - 0,0313 Speed”*2 - 0.0132 Pause”2 
Predictor Coef SE Coef Tí Pp 
Constant 367.96 19.40 18.96 0.000 
LCR 3.477 2.129 1.63 0.121 
Speed 3.044 1.591 1.91 0.073 
Pause 2.2924 0.6984 3.28 0.004 
Speed*Pa -0.01222 0.01534 -0.80 0.437 
LCR?2 -0.10412 0.03192 -3.26 0.005 
Speed”2 -0.03131 0.01906 -1.64 0.119 
Pause?2 -0.01318 0.01045 -1.26 0.224 
S=5.72344 R=Sq = 97.2% R-Sqladj) = 96.1% 
Analysis of Variance 
Source DF 0 MS F 
Regression 7 19567.5 2795.4 85.33 0.000 
Residual Error 17 556.9 32.8 
Total 24 20124.3 


Se puede ver que LCR, Velocidad - Pausa, Velocidad”, y Pausa? tienen P-valores grandes. 
Se dejará a LCR en el modelo por ahora, porque LCR? tiene un P-valor muy pequeño, y, por 
tanto, debe quedarse en el modelo. Se utilizará la prueba F para determinar si el modelo re- 
ducido obtenido al eliminar Velocidad - Pausa, Velocidad? y Pausa? es razonable. Primero, del 
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resultado para el modelo completo, observe que SSE.ompleto — 336.9, y que tiene 17 grados de 
libertad. El número de variables independientes en el modelo completo es p = 7. 
Queda bien el modelo reducido 


Sobrecarga = fB, + $; LCR + f) Velocidad + fy Pausa + PB LCR? + e 


Los resultados del ajuste de este modelo son: 


The regression equation is 
Overhead = 359 + 6.69 LCR + 0.777 Speed + 1.67 Pause - 0.156 LCR?2 


Predictor Coef SE Coef T Pp 

Constant 359.22 13.01 27.61 0.000 

LCR 6.695 1.156 5.79 0.000 

Speed 0.7766 0.2054 3.78 0.001 

Pause 1.6729 0.1826 9.16 0.000 

LOR?2 -1.5572 0.02144 -71.26 0.000 

S= 6.44304 R=Sq = 95.9% R=-Sqladj) = 95.0% 

Analysis of Variance 

Source DF SS MS F IS 
Regression 4 19294.1 4823.5 116.19 0.000 
Residual Error 20 830.3 41.5 

Total 24 20124.3 


Los P-valores para las variables en este modelo son bastante pequeños. Del resultado 
para este modelo reducido, se observa que SSEjeducido = 830.3. El número de variables en es- 
te modelo reducido es k = 4. 

Ahora se puede calcular el estadístico F. Utilizando la ecuación (8.17) se calcula 


(830.3 =596.91/(7 =4) 


=2.78 
556.9/17 


íS 


La distribución nula es F ¡7. De la tabla F (tabla A.7 en el apéndice A) se encuentra que 0.05 
< P < 0.10. De acuerdo con la regla general del 5%, puesto P > 0.05, el modelo reducido 
es creíble, pero sólo apenas es cierto. Más que establecer un modelo apenas creíble, es inte- 
ligente ir más lejos para buscar un modelo ligeramente menos reducido que tenga un P-valor 
mayor. 

Con este propósito se observa que de las tres variables que se eliminan, la variable Ve- 
locidad? tenía el P-valor más pequeño en el modelo completo. Lo anterior se tomará como 
una indicación de que ésta podría ser la más importante de las variables que se elimina, y se 
pondrá en el modelo. Ahora se ajustará un segundo modelo reducido, que es 


Sobrecarga = fB, + PB, LCR + f) Velocidad + By Pausa + 8 LCR? + f, Velocidad? 
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Los resultados del ajuste a este modelo son: 


The regression equation is 
Overhead = 373 + 4.80 LCR + 1.99 Speed + 1.45 Pause - 0.123 LCR?2 


-0.0212 Speed”2 


Predictor Coef SE Coef T p 
Constant 372.60 16.93 22.00 0.000 

LCR 4.799 1.935 2.48 0.023 

Speed 1.993 1.023 1.95 0.066 

Pause 1.4479 0.2587 5.60 0.000 

LOR?2 -0.12345 0.03400 -3.63 0.002 
Speed”2 -0.02120 0.01746 -1.21 0.240 

S = 6.36809 R=-Sq = 96.2% R=-Sqladj) = 95.2% 

Analysis of Variance 

Source DF SS MS F IS 
Regression 5 193538 3870.8 95.45 0.000 
Residual Error 19 770.5 40.6 

Total 24 20124.3 


Observe que el P-valor para Velocidad” en este modelo es grande (0.240). Esto no es 
bueno. En general no se quiere agregar una variable cuyo coeficiente podría ser igual a O. Por 
lo que tal vez no se querrá seguir con este modelo. De todos modos, sólo por práctica se cal- 
cula el valor del estadístico F. El valor de SSE educia en este modelo es 770.5. El número de 
variables independientes es k = 5. Por tanto, el valor del estadístico F, utilizando la ecuación 
(8.17), es 


_ (770.5 556.9)/(1 — 5) 
y 556.9/17 


= 3.26 


La distribución nula es F) ¡;7. En la tabla F (tabla A.7) se encuentra nuevamente que 0.05 
< P < 0.10, por lo que el modelo reducido apenas es creíble como el mejor. 

Se elige poner Velocidad” en el modelo porque tenía el menor P-valor entre las varia- 
bles eliminadas originalmente. Pero, como se acaba de ver, esto último no garantiza que tie- 
ne un P-valor pequeño cuando se pone nuevamente en el modelo reducido. Quizás una de las 
otras variables que se eliminaron sería mejor. De las tres variables que se eliminaron original- 
mente, la que tenga el segundo P-valor más pequeño era Pausa”. Se trata de sustituir Veloci- 
dad? con Pausa?. En este contexto, ahora se ajusta a un tercer modelo: 


Sobrecarga = fB, + $, LCR + Pf, Velocidad + fy Pausa + ¿LCR? + f Pausa? 
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Los resultados del ajuste a este modelo son: 


The regression equation is 
Overhead = 345 + 6.484 LCR + 0.707 Speed + 2.85 Pause - 0.145 LCR?2 
- 0.0183 Pause”2 


Predictor Coef SE Coef T Pp 
Constant 345.42 13.19 26.20 0.000 
LCR 6.484 1.050 6.17 0.000 
Speed 0.7072 0.1883 3.76 0.001 
Pause 2.8537 0.5337 5.35 0.000 
LER?2 -0.14482 0.01996 -=7.25 0.000 
Pause”2 -0.018334 0.007879 -2.33 0.031 
S= 5.83154 R-Sq = 96.8% R-Sqladj) = 95.9% 


Analysis of Variance 


Source DF SS MS F Pp 
Regression 5 19478.2 3895.6 114.55 0.000 
Residual Error 19 646.1 34.0 

Total 24 20124.3 


Este modelo tiene buen aspecto, al menos al principio. Todas las variables tienen P-va- 
lores pequeños. Se calculará el estadístico F' para ver si este modelo es creíble. El valor de 
SSEeducido en este modelo es 646.1. El número de variables independientes es k = 5. El valor 
del estadístico F, usando la ecuación (8.17), es, por tanto, 


_ (646.1 — 556.9)/(7 — 5) 
o 556.9/17 


= 1.36 


La distribución nula es F) ¡7. Al consultar la tabla F (tabla A.7) se encuentra que el punto 0.10 
en esta distribución F es 2.64. Por tanto, el P-valor es mucho mayor que 0.10. Este modelo 
es evidentemente creíble. 

Se ha utilizado un método informal para encontrar un buen modelo parsimonioso. Es 
importante darse cuenta que este procedimiento informal se podía haber realizado de manera 
diferente, con elecciones diferentes de las variables eliminadas e incluidas en el modelo. Se 
podría haber tenido un modelo final diferente que pudiera haber sido tan bueno como el que 
se encontró. Con frecuencia, en la práctica hay muchos modelos que ajustan los datos casi 
igualmente bien; no hay un único modelo “correcto”. 


Regresión con los mejores subconjuntos 


Como se ha mencionado, con frecuencia los métodos de selección de modelos son más infor- 
males y adecuados. Sin embargo, hay algunas herramientas que pueden hacer el proceso más 
sistemático. Una de ellas es la regresión con los mejores subconjuntos. El concepto es muy 
simple. Suponga que hay p variables independientes, x,, . . . , x,, que están disponibles para 
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ponerse en el modelo. Suponga que se desea encontrar un buen modelo que contenga exacta- 
mente cuatro variables independientes. Se puede ajustar cada modelo potencial que contenga 
cuatro de las variables, y ordenarlos según sus ajustes de bondad, midiendo el coeficiente de 
determinación R?. El subconjunto de cuatro variables que produce el valor mayor de Res el 
“mejor” subconjunto de tamaño 4. Se puede repetir el proceso para otros tamaños de subcon- 
juntos, encontrando los mejores subconjuntos de tamaño 1, 2,..., p. Después se pueden exa- 
minar estos mejores subconjuntos para ver cuál proporciona un buen ajuste en tanto continúe 
siendo parsimonioso. 

El procedimiento para encontrar los mejores subconjuntos es computacionalmente in- 
tenso. Cuando hay muchas potenciales variables independientes, existirán bastantes modelos 
para ajustar. Sin embargo, para la mayoría de los conjuntos de datos, las computadoras actua- 
les pueden manejar 30 o más variables independientes, ello es suficiente para tratar muchas 
situaciones prácticas. El siguiente resultado de MINITAB es para la regresión con los mejo- 
res subconjuntos aplicados a los datos de la tabla 8.4. Se están considerando siete variables 
independientes: Velocidad, Pausa, LCR, Velocidad - Pausa, Velocidad?, Pausa? y LEER” 


Best Subsets Regression 


Response is Overhead 


S 
Ss Pp 
p a e 
s P e u e L 
p a e s d C 
e u L d e * R 
Adj. e Ss CS po”? 
Vars  R-Sq  R-Sq C-p s d e R 2 2 a 2 
1 73.7 72.5 140.6 15.171 X 
1. /.54.5 52.6 258.3 19.946 X 
2 82.7 81.2 87.0 12.564 X X 
2 82.2 80.6 90.3 12.755 X  X 
3 92.9 91,9 26.5 8.2340 XX X 
3 89.6 88.1 46.9 9.9870 X XX 
4 95.9 95.0 10.3 6.4430 X X  X X 
4 95,4 94.5 Bue "0.2991 X XX X 
5 96:08. “95,9 6.7 5.8315 X X  X X X 
5 "907 19548 7.2 5.9074 X  X X XX 
6 97.1 96.2 6.6 5.6651 X XX XX X 
6 97.0 96.0 7.6 5.8164 X X X  X XX 
7 97.2 96.1 8.0 5.7234 X X X X Xx XX 


En este resultado se presenta tanto el mejor y el segundo mejor subconjunto, para tama- 
ños del 1 al 7. Se destaca que el término mejor sólo significa que el modelo tiene el mayor 
valor de R?, y no garantiza que éste sea el mejor en cualquier sentido práctico. Se explicará el 
resultado columna por columna. La primera, rotulada como “Vars”, presenta el número de va- 
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riables en el modelo. Por tanto, el primer renglón de la tabla describe el mejor modelo que se 
puede hacer con una variable independiente, y el segundo renglón describe el segundo mejor 
de este modelo. El tercero y cuarto renglones describen los mejores y los segundos mejores 
modelos que se pueden hacer con dos variables, y así sucesivamente. La segunda columna 
presenta el coeficiente de determinación, R, para cada modelo. Observe que el valor de R? 
para el mejor subconjunto aumenta cuando el número de variables lo hace. Es un hecho ma- 
temático que el mejor subconjunto de k + 1 variables de k siempre tendrá por lo menos un R? 
tan grande como el mejor subconjunto de variables k. Por el momento no se considerarán las 
dos siguientes columnas. La columna rotulada como *“s” presenta la estimación de la desvia- 
ción estándar del error. Es la de raíz cuadrada de la estimación s? (ecuación 8.8 de la sección 
8.1). Por último, las columnas de la derecha representan variables independientes que son 
candidatas para incluirse en el modelo. El nombre de cada variable se escribe verticalmente 
arriba de su columna. Una “X” en la columna significa que la variable está incluida en el mo- 
delo. Por tanto, el mejor modelo que contiene cuatro variables es el que tiene las variables Ve- 
locidad, Pausa, LCR y LCR?. 

Al observar los mejores subconjuntos del resultado de regresión, es importante fijarse 
que existe una pequeña diferencia en el ajuste entre el mejor y el segundo modelo de cada ta- 
maño (excepto para el tamaño 1). También es importante darse cuenta de que el valor de R? 
es una cantidad aleatoria, que depende de los datos. Si el proceso se repitiera y se obtuvieran 
nuevos datos, los valores de R? para los diferentes modelos serían algo diferentes, y los mo- 
delos diferentes serían “mejores”. Por esta razón no se debe usar este procedimiento, o cual- 
quier otro, para elegir sólo un modelo. En lugar de ello se debe dar cuenta de que habrá 
muchos modelos que ajustan los datos casi igualmente bien. 

Sin embargo, existen métodos que se han desarrollado para elegir un solo modelo, pre- 
sumiblemente el “mejor” de los “mejores”. Aquí se describen dos de ellos, con la adverten- 
cia de que no se consideren muy en serio. Se inicia al observar que si sólo se elige el modelo 
con el valor más alto de R?, siempre se elegirá el que contiene todas las variables, ya que el 
valor de R? aumenta necesariamente cuando el número de variables en el modelo se incremen- 
ta. Los métodos de selección de un modelo implican estadísticos que ajustan el valor de R, 
para eliminar esta característica. 

El primero es el R? ajustado. Sea n el número de observaciones y k el de variables in- 
dependientes en el modelo. El r ajustado se define así: 


R? ajustado = R? — ( ) (25 (8.18) 


n=k-=1 


El R? ajustado es siempre menor que Re ya que una cantidad positiva es restada de R?. Con- 
forme el número de variables k aumenta, R? aumentará, pero la cantidad restada de éste tam- 
bién lo hará. El valor de k para el cual el valor de R ajustado es un máximo se puede usar 
para determinar el número de variables en el modelo, y el mejor subconjunto de ese tamaño 
que se puede elegir como modelo. En el resultado anterior se puede ver que el R? ajustado al- 
canza su máximo (96.2%) en el modelo de seis variables que contienen las variables Veloci- 
dad, Pausa, LCR, Velocidad?, Pausa? y LCR?. 

Otro estadístico comúnmente usado es C, de Mallows. Para calcular esta cantidad, sea 
n el número de observaciones, p el número total de variables independientes en consideración 
y k el número de variables independientes en un subconjunto. Como antes, sea SSEcompleto 12 
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suma de los cuadrados del error para el modelo completo que contiene todas las variables p, 
y sea SSEeducigo La Suma de los cuadrados del error para el modelo que contiene solamente el 
subconjunto de variables k. El C,, de Mallows se define como 


_ (n =p 1)SSEreducido 


C),= — (n — 2k —2 8.19 
d SSE-completo es ; ) 


Para modelos que contienen tantas variables independientes como se necesiten, se su- 
pone que el valor de C, es casi igual al número de variables, incluyendo el intercepto, en el 
modelo. Para elegir sólo un modelo se puede elegir éste ya sea con el valor mínimo de C,, o 
se puede escoger el modelo en el que el valor de C,, está más cerca del número de variables 
independientes en el modelo. En el resultado anterior, ambos criterios producen el mismo mo- 
delo de seis variables elegidas por el criterio del e ajustado. El valor de C,, para este mode- 
lo es 6.6. 

Por último, se indica que el procedimiento ad hoc es utilizar la prueba F que produjo el 
modelo de cinco variables que contiene las variables Velocidad, Pausa, LCR, Pausa? y LERS 
El resultado muestra que este modelo es el mejor de cinco variables en función de R?. Su R? 
ajustado es 95.9%, y su valor C,,, 6.7, ambos están cercanos a sus valores óptimos. En la prác- 
tica no hay una razón clara para preferir el modelo elegido con e ajustado o con C, de Ma- 
llows, o viceversa. 


Regresión stepwise 

La regresión stepwise es quizás la técnica de selección de modelos más ampliamente usada. 
Su ventaja principal sobre la regresión con los mejores subconjuntos es que es menos inten- 
sa computacionalmente, por lo que se puede utilizar en situaciones donde hay un número muy 
grande de variables candidatas independientes y demasiados subconjuntos posibles para revi- 
sarse cada uno. La versión de la regresión stepwise que se describirá está basada en los P-va- 
lores de los estadísticos £ para las variables independientes. Una versión equivalente tiene 
como sustento el estadístico F' (que es el cuadrado del estadístico £). Antes de operar el algo- 
ritmo, el usuario elige dos P-valores de umbral, Oentro Y Ofueras COM Oldentro É Olfuera: La regre- 
sión stepwise empieza con un paso de selección hacia delante, en el cual se selecciona la 
variable independiente con el P-valor más pequeño, suponiendo que se satisface P < Oaentro: 
Esta variable se introduce en el modelo, creando un modelo con una sola variable indepen- 
diente. Esta variable se denotará por x,. En el siguiente paso, que también es un paso de se- 
lección hacia adelante, se revisan una a una las variables restantes como candidatas para la 
segunda variable en el modelo. La que tenga el P-valor más pequeño se agrega al modelo, su- 
poniendo nuevamente que P < Otdentro: 

Ahora, es posible que al haber agregado la segunda variable al modelo se provoque un 
aumento en el P-valor de la primera variable. En el siguiente paso, llamado de eliminación 
hacia atrás, la primera variable se elimina del modelo si su P-valor es mayor que Otuera: El 
algoritmo continúa alternando los pasos de selección hacia adelante con los de eliminación 
hacia atrás: en cada paso de selección hacia adelante se agrega la variable con el P-valor más 
pequeño si P < Qauentro, y en cada paso de eliminación hacia atrás se elimina la variable con el 
P-valor más grande si P > Ofuera: El algoritmo se termina cuando ninguna variable satisface 
los criterios para ser agregada o eliminada del modelo. 
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El siguiente resultado es el procedimiento de regresión stepwise de MINITAB, aplica- 
do a los datos de la tabla 8.4. Los umbrales para los P-valores son Otientro = Cftuera = 0.15. Hay 
un total de siete variables independientes que deben considerarse: Velocidad, Pausa, LCR, Ve- 
locidad - Pausa, Velocidad?, Pausa? y LER*. 


Alpha-to-Enter = 0.15 Alpha-to-Remove = 0.15 


Response is Overhead on 7 predictors, with N = 25 


Step 1 2 3 4 5 
Constant 452.2 437.3 410.7 388.4 338.5 
Speed*Pause 0.0470 0.0355 0.0355 0.0304 0.0146 
T-Value 8.03 6.00 6.96 5.21 3.52 
P-Value 0.000 0.000 0.000 0.000 0.002 
Pause 0.74 3.02 3.75 3.24 
T-Value 3.40 3.78 4.20 6.25 
P-Value 0.003 0.001 0.000 0.000 
Pause”2 - 0.0380 -0.0442 - 0.0256 
T-Value -2.94 -3.39 eo ES 
P-Value 0.008 0.003 0.005 
LCR 0.69 6.97 
T-Value 1.62 6.95 
P-Value 0.121 0.000 
LER?2 - 0.139 
T-Value -6.46 
P-Value 0.000 
S 15.2 12.6 10.8 10.4 5.99 
R-Sq 73.70 82.74 87.77 89.19 96.62 
R-Sgladj) 72.55 81.18 86.02 87.02 95.73 
Mallows C-p 140.6 87.0 58.1 51.4 7.8 


En el paso 1, la variable Velocidad - Pausa tenía el P-valor (0.000) más pequeño entre 
las siete, por lo que fue la primera variable en el modelo. En el paso 2, la Pausa tenía el P-va- 
lor (0.003) más pequeño entre las variables restantes, por lo que fue la segunda variable agre- 
gada en el modelo. El P-valor para la variable Velocidad - Pausa permanecía en 0.000 después 
de que se agregó Pausa al modelo; debido a que no subió a un valor mayor que Otñuera = 0.15, 
no se elimina del modelo. En los pasos 3, 4 y 5 las variables Pausa”, LCR y LCR? son agre- 
gadas una tras otra. En ningún punto el P-valor de una variable en el modelo superó el um- 
bral Aguera = 0.15, por lo que no se eliminó ninguna variable. Después de cinco pasos, ninguna 
de las variables que permanecían tenía P-valores menores que Ottentro — 0.15, por lo que el al- 
EQutñO termina. El modelo final contiene las variables Velocidad - Pausa, Pausa, Pausa?, LCR 
y LCR”. 
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El modelo elegido por la regresión stepwise es uno con cinco variables. En compara- 
ción con el resultado arrojado por la regresión con los mejores subconjuntos, muestra que no 
es uno de los mejores dos modelos con cinco variables en términos de R?. El modelo ajusta 
bien, y solamente en relación con el ajuste es razonable. Se indica que este modelo tiene una 
característica indeseable que contiene el término de interacción Velocidad - Pausa sin conte- 
ner la variable Velocidad sola. Esto último indica una debilidad de todos los procedimientos 
automáticos de selección de variables, incluyendo la regresión stepwise y la regresión con los 
mejores subconjuntos. Operan sólo con base en la bondad del ajuste, y pueden no considerar 
las relaciones entre variables independientes que son importantes. 


Los procedimientos de selección de modelos algunas veces 
encuentran modelos cuando no deben hacerlo 


Cuando se construye un modelo para pronosticar el valor de una variable dependiente, podría 
parecer razonable tratar de empezar con tantas variables candidatas independientes como sea 
posible para que un procedimiento de selección de modelos tenga un número muy grande de 
modelos que elegir. Desgraciadamente, lo anterior no es una buena idea, como se mostrará a 
continuación. 

Un coeficiente de correlación se puede calcular entre cualesquiera dos variables. A ve- 
ces, dos variables sin ninguna relación real estarán correlacionadas fuertemente por probabi- 
lidad. Por ejemplo, George Udny Yule observó que la tasa de natalidad anual en Gran Bretaña 
estaba casi perfectamente correlacionada (r = —0.98) con la producción anual de hierro en 
lingotes en Estados Unidos durante 1875-1920. Aunque nadie sugeriría tratar de pronosticar 
alguna de estas variables por la otra. Ello ilustra una dificultad que comparten todos los proce- 
dimientos de selección de modelos. Lo más probable es que algunas de las variables independien- 
tes que se proporcionan sean mejores candidatas solamente por azar y presenten correlaciones 
sin sentido con la variable dependiente. 

Este fenómeno se muestra con una simulación. Se genera una muestra aleatoria simple 
Yi, - - - > Y3p de tamaño 30 de una distribución N(0O, 1). Esta muestra se denota por y. Después 
se generan 20 muestras independientes más de tamaño 30 de una distribución N(O0, 1); estas 
muestras se denotarán por x;, ... , X2p. Para hacer la notación clara, la muestra x, contiene 30 
valores X;], . . . , Xj3p. Después se aplican ambas, la regresión stepwise y la regresión con los 
mejores subconjuntos, a estos datos simulados. Ninguno de los x, está relacionado con y; to- 
dos fueron generados de manera independiente. Por tanto, el resultado ideal de un procedi- 
miento de selección de modelos sería producir otro similar sin ninguna variable dependiente. 
El comportamiento verdadero era muy diferente. Los dos siguientes resultados de MINITAB 
muestran la regresión stepwise y la regresión con los mejores subconjuntos. El método de re- 
gresión stepwise recomienda un modelo que contiene seis variables, con un R ajustado de 
41.89%. El procedimiento de la regresión con los mejores subconjuntos produce el modelo 
de mejor ajuste para cada número de variables de 1 al 20. Usando el criterio de R? ajustado, 
el procedimiento de mejores subconjuntos recomienda un modelo de 12 variables, con un R? 
ajustado de 51.0%. De acuerdo con el criterio mínimo de C,, de Mallows, el “mejor” modelo 
es uno de cinco variables. 

Alguien que considerara este resultado en sentido literal creería que algunas de las va- 
riables independientes podrían ser útiles para pronosticar la variable dependiente. Pero nin- 
guna de ellas lo es. Todas las relaciones aparentes se deben completamente al azar. 
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Stepwise 


Alpha-to 


Response 


Step 


Cons 


X15 
T-Va 
P-Va 


X6 
T-Va 
P-Va 
X16 
T-Va 
P-Va 


x12 


R-Sq 


tant 


ue 
ue 


ue 
ue 


ue 
ue 


ue 
ue 


ue 
ue 


ue 
ue 


Regression: Y versus X1, X2, 


-Enter: 0.15 


Alpha-to-Remove: 0.15 


is Y on 20 predictors, with N = 30 


1 
0.14173 


- 0.38 
- 2.08 
0.047 


ES 
13133 


R-Sqladj) 10.24 
Mallows C-p 0) 


2 3 4 5 6 
0.11689 0.12016 0.13756 0.09070 0.03589 


- 0.38 = 0.26 =0032 - 0.28 - 0.30 
-2.19 -1.60 =1.:8% 17:69 - 1.89 
0.037 0.122 0.073 0.105 0.071 
0.39 0.55 0.57 0.57 0.52 
2.04 2.76 2.099 30 LS 2.87 
0.051 0.010 0.006 0.004 0.009 
- 0.43 -0.43 "0.095 200273 

-1.98 - 2.06 -2.60 =3,307 

0.058 0.050 0.016 0.005 

0.33 0.42 0.49 

1:79 LLO 2.66 

0.086 0.031 0.014 

-0.42 -0.52 

-1.83 2 Za 

0.080 0.035 

0.35 

1:03 

0.140 

1.09 1.04 0.998 0.954 0.928 
24.92 34.75 42.15 49.23 93.9 
19.36 27.22 32.90 38.66 41.89 
3.3 Lal 1.0 0.4 0.7 
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Best Subsets Regression: Y versus X1, X2, 


Response is Y 


Var 


NS) 


S 


O O 0 Jo. dnd >» aqu NN RO 0 yo yn ¿> Qq4yU.NnNprRr 


XX XXX XXXXXX 

Mallows XXXXXXXXX11111111112 
R-Sq R-Sqíladj) C-p Ss12345678901234567890 
1353 1022 5.5 1.1539 Xx 
28.3 230 2.0 1.0685 X Xx 
34.8 LN 1.7 1.0390 Xx XX 
43.2 34.1 0.6 0.98851 Xx Xx X Xx 
49.2 38.57 0.4 0.95391 Xx X X XX 
53.9 41.9 0.7 0.92844 Xx X Xx X XX 
Sed 44.3 1.3 0.90899 X X X X XX Xx 
61.2 46.4 2.1 0.89168 X X XX XXX  X 
65.0 49.3 2.7 0.86747 Xx XX XX XXX  X 
67.6 50.5 3.8 0.85680 Xx XX XX XX XXX 
69.2 50.4 5.2 0.85803 XX X XX XX XXX  X 
71.3 51.0 6.4 0.85267 X X X XX XX  XXXX  X 
712.4 49.9 8.0 0.86165 X X X XX XXX  XXXX  X 
73.0 47.8 9.8 0.87965 X X X XXX XXX  XXXX 2 
74.2 46.5 11.4 0.89122 X XX XXX XXX  XXXXXX 
74.5 43.1 13.3 0.91886 XXX XX XX XXX XXX XXX 
74.8 INE 15.1 0.94985 XXX XX XX XX XX X XX XXX 
1851 34.2 17.1 0.98777 XXX XX XX XX XXX XXX XXX 
TS 1 27.9 19.0. 1.0344 XXX XXX XX XX XX XX XXX XX 
Tae 20.1 21.0. 1.0886 X X X XX X X X X X X X XX XXX XXX 


¿Cómo se puede determinar qué variables, si las hay, en el modelo seleccionado están 
muy relacionadas con la variable dependiente, y cuáles se seleccionaron solamente por azar? 
Los métodos estadísticos no son de mucha ayuda aquí. El método más confiable es repetir el 
experimento, reuniendo más datos de la variable dependiente y de las variables independien- 
tes que fueron seleccionadas para el modelo. Entonces las variables independientes sugeridas 
por el procedimiento de selección se pueden ajustar a la variable dependiente utilizando los 
nuevos datos. Si algunas de estas variables ajusta bien a los nuevos datos, la evidencia de una 
relación real será más convincente. 

Enseguida se resume el análisis de la selección de modelos destacando cuatro puntos. 
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Cuando seleccione un modelo de regresión considere lo siguiente: 


E Cuando hay poca o ninguna teoría física para apoyarse, muchos modelos diferen- 
tes ajustarán los datos casi igualmente bien. 


Los métodos para elegir un modelo implican estadísticos (R”, el estadístico F, C,) 
cuyos valores dependen de los datos. Por tanto, si el experimento se repite, estos 
estadísticos tendrán valores diferentes, y los modelos diferentes pueden parecer ser 
“mejores”. 


mM Algunas o todas las variables independientes en un modelo seleccionado pueden 
no estar realmente relacionadas con la variable dependiente. Siempre que sea posi- 
ble, los experimentos se deben repetir para evaluar estas relaciones aparentes. 


Mi La selección de modelos es un arte, no una ciencia. 


Ejercicios para la sección 8.3 
1. Verdadero o falso: 


a) Para algún conjunto de datos siempre hay un mejor modelo. 


b) Cuando no hay teoría física sobre la cual especificar un modelo, por lo general no hay ningún mejor modelo, pero muchos 
son casi igualmente buenos. 


c) Los métodos de selección de modelos como la regresión con los mejores subconjuntos o la regresión stepwise, cuando se 
usan adecuadamente, están diseñados en forma científica para encontrar el mejor modelo disponible. 


d) Los métodos de selección de modelos como la regresión con los mejores subconjuntos y regresión stepwise, cuando se usan 
adecuadamente, pueden sugerir modelos que ajustan los datos bien. 


2. El artículo “Experimental Design Approach for the Optimization of the Separation of Enantiomers in Preparative Liquid 
Chromatography” (S. Lai y Z. Lin, en Separation Science and Technology, 2002:847-875) describe un experimento que impli- 
ca un proceso químico diseñado para separar enantiomeros. Se ajustó un modelo para estimar el tiempo del ciclo (y) en fun- 
ción de la razón de flujo (x,), la concentración de la muestra (x»), y la composición de fase móvil (x3). En la tabla siguiente se 
presentan los resultados de un ajuste de mínimos cuadrados. (El artículo no proporciona el valor del estadístico £ para el térmi- 
no constante.) 


Pronosticador Coeficiente T P 

Constante 1.603 

Xi —0.619 —22.289 0.000 
X> 0.086 3.084 0.018 
X3 0.306 11.011 0.000 
xi 0.272 8.542 0.000 
dG 0.057 1.802 0.115 
Xx 0.105 3.300 0.013 
X1X2 —0.022 —0.630 0.549 
X1X3 —0.036 —1.004 0.349 
X2X3 0.036 1.018 0.343 


De los siguientes, ¿cuál es el mejor paso siguiente en el análisis? 


i) No hay necesidad de hacer ninguno. Este modelo es excelente. 
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ii) Eliminar, x%, x3 y x5 del modelo, y después realizar una prueba F. 
iii) Eliminar x,x,, x,X3 y x2x3 del modelo, y después realizar una prueba F. 
iv) Eliminar x, y x% del modelo, y después realizar una prueba F. 


v) Agregar los términos cúbicos x%, x3 y x3 al modelo para tratar de mejorar el ajuste. 


3. En el artículo que se cita en el ejercicio 2 se ajustó un modelo para investigar la relación entre las variables independientes da- 
das en el ejercicio 2 y la cantidad del isómero $ coleccionada. Los resultados del ajuste de mínimos cuadrados se presentan en 
la tabla siguiente. (El artículo no proporciona el valor del estadístico f para el término constante.) 


Pronosticador Coeficiente T P 

Constante 3.367 

X —0.018 —1.729 0.127 
xa 1.396 135.987 0.000 
X3 0.104 10.098 0.000 
e 0.017 1.471 0.184 
x 0.023 0.909 0.394 
x3 —0.030 2.538 0.039 
XX —0.006 —0.466 0.655 
X1X3 0.012 0.943 0.377 
X2X3 0.055 4.194 0.004 


De lo siguiente, ¿cuál es el mejor paso siguiente en el análisis? 

¿) Elimine x%, x3 y x3 del modelo, y después realice una prueba F. 

11) No se tiene que hacer nada. Este modelo es excelente. 

iii) Agregar términos cúbicos xi, x3 y x3 al modelo para tratar de mejorar el ajuste. 
iv) Eliminar x,x,, x,X3 y x,x3 del modelo, después realice una prueba F. 


v) Elimine La X¡X> y x¡x3 del modelo, y después realice una prueba F. 


4. Un ingeniero mide una variable dependiente y y las variables independientes x,, x», y x3. El resultado de MINITAB para el mo- 
delo y = fp + Bix, + Pax, + B3x3 + e se presenta a continuación. 


The regression equation is 
=.0.367 + 1.61 Xx1 == 5:51. X2 4 127 X3 


Predictor Coef SE Coef T Pp 
Constant 0.3692 0.9231 0.40 0.698 
X1 1.6121 1.3395 Vo 0.254 
Xx2 5.5049 1.4959 3.68 0.004 
x3 1.2646 1.9760 0.64 0.537 


De los siguientes, ¿cuál es el mejor paso siguiente en el análisis? 

i) Agregar términos de interacción x,x, y x,x3 con el propósito de intentar determinar más variables para poner en el modelo. 
ii) Agregar el término de interacción x,x3 para intentar determinar otra variable para poner en el modelo. 

iii) No se tiene que hacer nada. Este modelo es excelente. 

iv) Eliminar x, y x3, y después realizar una prueba F. 

v) Eliminar x,, y después realizar una prueba F. 


vi) Eliminar el intercepto (constante), ya que tiene el P-valor más grande. 
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5. Un fisiólogo está tratando de pronosticar las tasas de respiración de las personas (en m'/h) durante ejercicio pesado a partir de 
sus tasas de respiración en reposo, mientras están sentadas, y durante ejercicio ligero. El siguiente resultado de MINITAB es 
del modelo 


Pesado = f, + f, Ligero + f, Sentado + fz Reposo + f, Ligero - Sentado + fs; Ligero - Reposo + Pj¿ Sentado - Reposo + € 


The regression equation is 
Heavy = 265.6 + 1.48 Light - 10.4 Sit - 1.13 Rest + 0.044 Lightx*Sit 
+ 0.0010 Lightx*Rest + 0.026 Sitx*Rest 


Predictor Coef SE Coef Mi Pp 
Constant 265.64 10.59 25.08 0.000 
Light 1.4755 0.2632 5.61 0.000 
Sit - 10.410 1.660 = 6.21 0.000 
Rest - 1.1338 LESS -0.51 0.622 
Lightx*Sit 0.043728 0.01513 2.89 0.015 
Light*Rest 0.00099612 0.01855 0.05 0.958 
Sitx*Rest 0.026348 0.02196 1.20 0,255 


De los siguientes, ¿cuál es el mejor paso siguiente en el análisis? 

i) Eliminar Reposo, Ligero - Reposo, y Sentado - Reposo del modelo, y después realizar una prueba F. 

ii) Eliminar Ligero - Sentado del modelo, y después realizar una prueba F-. 

iii) No se tiene que hacer nada. Este modelo es excelente. 

iv) Agregar las variables Ligero? y Sentado? para tratar de encontrar más variables que poner en el modelo. 


v) Agregar la variable Reposo” para tratar de encontrar más variables que poner en el modelo. 


6. El siguiente resultado de MINITAB es para una regresión con los mejores subconjuntos que implica cinco variables dependien- 
tes X¡, ..., X5. Los dos modelos de cada tamaño con los valores más altos de R? están listados. 


Best Subsets Regression: Y versus X1, X2, X3, X4, X5 


Response is Y 


Mallows X X X Xx X 

Vars R=-Sq  R-Sqladj) ¡a S 1 2 3 4 5 

1 77.3 FIA 133.6 1.4051 X 

1 10.2 9.3 811.7 2.7940 X 

2 89.3 89.0 14.6 0.97126 X X 

2 77.8 77.3 130.5 1.3966 X X 

3 90.5 90.2 3.6 0.91630 X X X 

3 89.4 89.1 14.6 0.96763 X X X 

4 90.7 90.3 4.3 0.91446 X X X X 

4 90.6 90.2 503 0.91942 X X X X 

5 90.7 90.2 6.0 0.91805 X X X X X 
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a) ¿Qué variables están en el modelo seleccionado por el criterio del mínimo C,? 
b) ¿Qué variables están en el modelo seleccionado por el criterio del R? ajustado? 


c) ¿Existen algunos otros modelos buenos? 


7. Supuestamente el siguiente es el resultado de la regresión con los mejores subconjuntos que implica las cinco variables inde- 
pendientes X,, ... ., X;. Los dos modelos de cada tamaño con los valores más altos de R? están listados. Algo está equivocado. 
¿Qué es? 


Best Subsets Regression 


Response is Y 


Adj X X X X X 

Vars R-Sq R-Sq C-p S 1 2 3 4 5 

1 69.1 68.0 101.4 336.79 X 

1 60.8 59.4 135.4 379.11 X 

2 80.6 TO a 55,9 271.60 X X 

2 79.5 77.9 60.7 279.59 X X 

3 93.8 92.8 13.14 184.27 X X X 

3 93.7 92.7 18.8 197.88 Xx X X 

4 91.4 90.4 55 159.59 X Xx Xx X 

4 90.1 88.9 5.6 159.81 X X Xx X 

5 94.2 93.0 6.0 157.88 X X X X X 


8. Cierto proceso químico se realizó 12 veces, con las concentraciones diferentes de tres reactivos. Las concentraciones se deno- 
tan por xy, x» y x3. El modelo y = fp, + fix, + Box> + P3x3 + Byxix> + P5xix3 + Bpx2x3 + ese ajusta a los datos, y la suma de 
los cuadrados del error es SSE = 4.6409. Entonces se ajusta el modelo reducido y = f, + fx, + B»x, + B3x3, y la suma de los 
cuadrados del error es SSE = 11.5820. ¿Es razonable utilizar el modelo reducido, en vez del que contiene todas las interaccio- 
nes, para pronosticar la producción? Explique. 


9. (Continúa el ejercicio 7 de la sección 8.1.) Para tratar de mejorar el pronóstico de FEV, se incluyeron variables independien- 
tes adicionales en el modelo. Estas nuevas variables son el peso (en kg), el producto (interacción) de la estatura y el peso, y de 
la temperatura ambiente (en *C). El siguiente resultado de MINITAB presenta los resultados del ajuste del 


FEV, = f, + $, Último FEV, + f, Sexo + f, Altura + f, Peso + fB, Altura - Peso + Pz Temperatura + f, Presión + e 


The regression equation is 


FEV1 = -0.257 + 0.778 Last FEV - 0.105 Gender + 1.213 Height - 0.00624 Weight 
+ 0.00386 Height*Weight - 0.00740 Temp - 0.00148 Pressure 
Predictor Coef SE Coef T Pp 
Constant 0.2565 0.7602 0.34 0.736 
Last FEV 0.77818 0.05270 14.77 0.000 
Gender -0.10479 0.03647 -2.87 0.005 
Height 1.2128 0.4270 2.84 0.005 
eight -0.0062446 0.01351 -0.46 0.645 
Heightx*Weight 0.0038642 0.008414 0.46 0.647 
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Temp -0.007404 0.009313 -0.79 0.428 
Pressure -0.0014773 0.0005170 -2.86 0.005 
S= 0.22189 R-Sq = 93.5% R-Sqladj) = 93.2% 


Analysis of Variance 


Source DF SS MS F Pp 
Regression 7 111.35 15.907 323.06 0.000 
Residual Error 57 7.7302 0.049237 

Total 64 119.08 


a) El siguiente resultado de MINITAB, reproducido del ejercicio 7 de la sección 8.1, es para un modelo reducido en el cual 
Peso, Estatura - Peso y Temperatura se tienen que eliminar. Calcule el estadístico F' para probar la credibilidad del modelo 
reducido. 


The regression equation is 


10. 


FEV1 = -0.219 + 0.779 Last FEV - 0.108 Gender + 1.354 Height - 0.00134 Pressure 
Predictor Coef SE Coef T Pp 
Constant -0.21947 0.4503 - 0.49 0.627 

Last FEV 0.779 0.04909 15.87 0.000 
Gender -0.10827 0.0352 - 3.08 0.002 
Height 1.3536 0.2880 4.70 0.000 
Pressure -0.0013431 0.0004722 - 2.84 0.005 

S= 0.22039 R-Sq = 93.5% R-Sqladj) = 93.3% 
Analysis of Variance 

Source DF SS MS F IS 
Regression 4 111.31 21.826 572.89 0.000 
Residual Error 160 7.7716 0.048572 

Total 164 119.08 


b) ¿Cuántos grados de libertad tiene el estadístico F? 


c) Determine el P-valor para el estadístico F. ¿El modelo reducido es creíble? 


d) Alguien afirma que puesto que cada una de las variables que se ha eliminado tenía P-valores grandes, el modelo reducido 
debe ser creíble, y no era necesario realizar una prueba F. ¿Esto es correcto? Explique por qué. 


e) La suma total de los cuadrados es la misma en ambos modelos, aunque las variables independientes son diferentes. ¿Hay 


un error? Explique. 


El artículo “Optimization of Enterocin P Production by Batch Fermentation of Enterococcus faecium P 13 at Constant pH” (C. 
Herran, J. Martínez y cols., en Applied Microbiology and Biotechnology, 2001:378-383) describe un estudio que implica la ta- 
sa de crecimiento de la bacteria Enterococcus faecium en medios con pH diferente. El logaritmo de la tasa máxima de creci- 
miento para diferentes valores de pH se presenta en la tabla siguiente: 


In tasa de crecimiento 


-2.12 


1.51 


—0.89 


—0.33 —0.05 


—0.11 


pH 


4.7 


5.0 5.3 


5.7 6.0 


6.2 
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a) Ajuste el modelo lineal: In tasa de crecimiento = f, + f, pH + e. Para cada coeficiente, encuentre el P-valor para la hipó- 
tesis nula de que el coeficiente es igual a O. Además, calcule al análisis de la varianza tabla (ANOVA). 


b) Ajuste el modelo cuadrático: In tasa de crecimiento = fl, + fB, pH + fl, pH? + e. Para cada coeficiente, encuentre el P-va- 
lor para la hipótesis nula de que el coeficiente es igual a O. Además, calcule la tabla ANOVA. 

c) Ajuste el modelo cúbico: In tasa de crecimiento = fl, + fB, pH + f, pH? fP, pH? + e. Para cada coeficiente, encuentre el P- 
valor para la hipótesis nula de que el coeficiente es igual a O. Además, calcule la tabla ANOVA. 


d) ¿Cuál de estos modelos prefiere y por qué? 


11. En relación con el ejercicio 7 de la sección 7.4, un molino de viento se utiliza para generar corriente directa. Se reúnen datos 
para determinar la relación entre la velocidad del viento y la corriente. Sea y la corriente y x la velocidad del viento. 


a) Ajuste el modelo cuadrático y = f3, + fx + Pax? + e. Respecto a cada coeficiente, encuentre el P-valor para la hipótesis 
nula de que el coeficiente es igual a 0. 


b) Ajuste el modelo y = f, + fi, In x + e. Respecto a cada coeficiente, determine el P-valor para la hipótesis nula de que el 
coeficiente es igual a 0. 


Cc) Realice una gráfica de residuos contra valores ajustados para cada modelo. ¿Los supuestos de cualquier modelo parece que 
hayan sido violados? 


d) Utilizando cada modelo, pronostique la corriente para las velocidades del viento de 3.0, 5.0, 7.0 y 9.0 mi/h. 


e) El modelo cuadrático tiene dos variables dependientes (x y x?), mientras que el logaritmo del modelo sólo tiene uno. ¿La 
prueba FF se puede utilizar para determinar qué modelo es más adecuado? Si es así, calcule el estadístico F' y el P-valor. Si 
no, explique. 


f) ¿Puede decir una razón para preferir uno de estos modelos con respecto a los demás? Explique. 


12. En una roca que se detona con explosivos la velocidad máxima de la partícula (PPV, por sus siglas en inglés) depende tanto de 
la distancia de la explosión como de la cantidad de carga. El artículo “Prediction of Particle Velocity Caused by Blasting for an 
Infrastructure Excavation Covering Granite Bedrock” (A. Kahriman, en Mineral Resources Engineering, 2001:205-218) pre- 
senta datos de PPV, la distancia escalada (que es igual a la dividida entre la raíz cuadrada de la carga), y la cantidad de carga. 
La tabla siguiente presenta los valores de PPV, la distancia escalada y la cantidad de carga para 15 explosiones. (Algunos de 
estos datos se presentaron en el ejercicio 4 de la sección 7.4.) 


Distancia escalada Cantidad de 


PPV (mm/s) (m/kg?-=) carga (kg) 

1.4 47.33 4.2 
15.7 9.6 92 
2.54 15.8 40 
1.14 24.3 48.7 
0.889 23 95.7 
1.63 12.7 67.7 
1.4 39.3 13 

26.8 8 70 
1.02 29.94 13.5 
4.57 10.9 41 
6.6 8.63 108.8 
1.02 28.64 27.43 
3.94 18.21 59.1 
1.4 33 11.5 
1.4 34 175 


a) Ajuste el modelo ln PPV = f, + f; In Distancia escalada + $, ln Carga + e. Calcule el P-valor para probar H, : PB, = 0 
respecto de B,, fB, y B,. 


13. 


14. 
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b) El artículo afirma que es apropiado el modelo ln PPV = f, + f, In Distancia escalada + e. Ajuste este modelo. Calcule el 
P-valor para probar H, : fB; = O respecto de fp, fB, y PB». 


Cc) ¿Qué modelo prefiere usted? ¿Por qué? 


El artículo “Ultimate Load Analysis of Plate Reinforced Concrete Beams” (N. Subedi y P. Baglin, en Engineering Structures. 
2001:1068-1079) presenta fuerzas finales teóricas y medidas (en kN) para una muestra de vigas de concreto reforzado con ace- 
ro. Los resultados se presentan en la tabla siguiente (se han eliminado dos datos atípicos). 

Sea y la fuerza medida, x la fuerza teórica y £ la fuerza verdadera, que no se conoce. Suponga que y = £ + e, donde e es el 
error de medición. Está poco claro si f está relacionada con x mediante un modelo lineal + = ff, + f¡x o por un modelo cuadrá- 
tico 1 = Py + Bix + Par. 


Teórica Medida Teórica Medida 
991 1118 1516 1550 
785 902 1071 1167 
1195 1373 1480 1609 
1021 1196 1622 1756 
1285 1609 2032 2119 
1167 1413 2032 2237 
1519 1668 660 640 
1314 1491 565 530 
1743 1952 738 893 

791 844 682 T15 


a) Ajuste el modelo lineal y = f, + fx + e. Respecto de cada coeficiente, encuentre el P-valor para la hipótesis nula de que 
el coeficiente es igual a 0. 


b) Ajuste el modelo lineal y = f, + Bix + Bu + e. Respecto de cada coeficiente, encuentre el P-valor para la hipótesis nu- 
la de que el coeficiente es igual a 0. 


c) Grafique los residuos contra los valores ajustados para el modelo lineal. 

d) Grafique los residuos contra los valores ajustados para el modelo cuadrático. 

e) Con base en los resultados de los incisos a) al d), ¿qué modelo parece más adecuado? Explique. 
f) Utilizando el modelo más adecuado, calcule la fuerza verdadera si la fuerza teórica es 1 500. 


g) Utilizando el modelo más adecuado, encuentre un intervalo de confianza de 95% para la fuerza verdadera si la fuerza teó- 
rica es 1 500. 


El artículo “Permanent Deformation Characterization of Subgrade Soils from RLT Test” (A. Puppala, L. Mohammad y cols., 
en Journal of Materials in Civil Engineering, 1999:274-282) presenta mediciones de tensiones plásticas (en %) sobre suelos 
para diferentes esfuerzos limitantes y de desviación en kPa. La tabla siguiente presenta las tensiones plásticas (y), los esfuer- 
zos limitantes (x,) y el esfuerzo de desviación (x>,) para pruebas sobre una tierra arenosa. 


y Xx X2 y Xx X2 
0.01 21 21 0.01 70 140 
0.02 21 35 0.07 70 210 
0.05 21 52.5 0.002 105 70 
0.09 21 70 0.0003 105 105 
0.003 35 35 0.0009 105 140 
0.006 35 70 0.01 105 210 
0.05 35 105 0.001 140 70 
0.23 35 140 0.0003 140 105 
0.003 70 35 0.0005 140 210 
0.0008 70 70 0.03 140 280 
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15. 


16. 


17. 


a) Ajuste el modelo y = B, + fx, + Pax, + €. Realice la gráfica de residuos contra valores ajustados. ¿Parece apropiado el 
modelo? 


b) Ajuste el modelo In y = f, + f, ln x, + $6, In x, + e. Realice la gráfica de residuos contra valores ajustados. ¿Parece apro- 
piado el modelo? 
c) Utilice el más apropiado de los modelos de los incisos a) al b) para pronosticar y cuando x, = 50 y x, = 100. 


d) ¿Se mejorará el modelo utilizado en el inciso c) al incluir un término de interacción? Explique. 


El artículo “Vehicle-Arrival Characteristics at Urban Uncontrolled Intersections” (V. Rengaraju y V. Rao, en Journal of Trans- 
portation Engineering, 1995:317-323) presenta los datos sobre las características de tránsito en diez cruceros en Madrás, In- 
dia. La siguiente tabla proporciona datos sobre el ancho del camino en m (x;), el volumen de tránsito de vehículos por carril 
por hora (x,) y la velocidad media en km/h (xz). 


y X1 X y X1 X 
35.0 76 370 26.5 75 842 
37.5 88 475 27.5 92 723 
26.5 76 507 28.0 90 923 
33.0 80 654 23.5 86 1 039 
22.) 65 917 24.5 80 1120 


a) Ajuste el modelo y = f, + f,x, + B,x, + e. Encuentre los P-valores para probar que los coeficientes sean iguales a 0. 


b) Ajuste el modelo y = f, + fx, + e. Encuentre los P-valores para probar que los coeficientes sean iguales a 0. 


c) Ajuste el modelo y = f, + fix, + e. Encuentre los P-valores para probar que los coeficientes sean iguales a 0. 


d) ¿Cuál de los modelos del a) al c) considera el mejor? ¿Por qué? 


La tabla siguiente presenta mediciones de la media de los niveles de ruido en dBA (y), el ancho de la avenida en m (x,) y me- 
dia de la velocidad en km/h (x>) de diez ubicaciones en Bangkok, Tailandia, como se informa en el artículo “Modeling of Ur- 
ban Area Stop-and-Go Traffic Noise” (P. Pamanikabud y C. Tharasawatipipat, en Journal of Transportation Engineering 
1999:152-159). 


y X1 X2 y Xx X2 
78.1 6.0 30.61 78.1 12.0 28.26 
78.1 10.0 36.55 78.6 6.5 30.28 
79.6 12.0 36.22 78.5 6.5 30.25 
81.0 6.0 38.73 78.4 9.0 29.03 
787 6.5 29.07 79.6 6.5 33.17 


Construya un buen modelo lineal para pronosticar la media de los niveles de ruido usando el ancho de la avenida, la media de 
la velocidad, o ambos, como indicadores. Proporcione las desviaciones estándar de los coeficientes estimados y los P-valores 
para probar que son diferentes de O. Explique cómo escogió su modelo. 


El artículo “Modeling Resilient Modulus and Temperature Correction for Saudi Roads” (H. Wahhab, I. Asi y R. Ramadhan, en 
Journal of Materials in Civil Engineering, 2001:298-305) describe un estudio diseñado para pronosticar los módulos de resi- 
liencia del pavimento a partir de las propiedades físicas. La tabla siguiente presenta datos para los módulos de resiliencia a 
40*C en 10% kPa (y), el área de superficie del agregado en m”/kg (x,), y el punto de suavidad del asfalto en *C (x,). 


18. 
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y X1 *X2 y X1 X y X1 X 
1.48 5.17 60.5 3.06 6.89 65.3 1.88 5.93 63.2 
1.70 7.45 74.2 2.44 8.64 66.2 1.90 8.17 62.1 
2.03 8.14 67.6 1.29 6.58 64.1 1.76 9.84 68.9 
2.86 8.73 70.0 3.53 9.10 68.6 2.82 7.17 72.2 
2.43 7.12 64.6 1.04 8.06 58.8 1.00 7.78 54.1 


El modelo cuadrático completo es y = fB, + Bix, + Pax, + Byxyx, + Bari + Psx + e. ¿Qué submodelo de este modelo com- 
pleto cree que es el más adecuado? Justifique su respuesta ajustando dos o más modelos y compare los resultados. 


El artículo “Models for Assessing Hoisting Times of Tower Cranes” (A. Leung y C. Tam, en Journal of Construction Enginee- 
ring and Management, 1999:385-391) presenta un modelo construido mediante un procedimiento de regresión stepwise para 
pronosticar el tiempo necesario para la operación con poleas de una grúa de torre. Se consideraron veinte variables y el proce- 
dimiento stepwise eligió un modelo de nueve variables. El R? ajustado para el modelo seleccionado fue 0.73. Verdadero o falso: 


a) El valor 0.73 es una medida confiable de la bondad del ajuste del modelo seleccionado. 
b) El valor 0.73 puede exagerar la bondad del ajuste del modelo. 


c) Un procedimiento de regresión stepwise selecciona solamente variables de cierta utilidad para el pronóstico del valor de la 
variable dependiente. 

d) Es posible que una variable que no se utiliza en el pronóstico del valor de una variable dependiente sea parte de un mode- 
lo seleccionado por un procedimiento de regresión stepwise. 


Ejercicios adicionales para el capítulo 8 


1. 


El artículo “Advances in Oxygen Equivalence Equations for Predicting the Properties of Titanium Welds” (D. Harwig, W. Itti- 
wattana y H. Castner, en The Welding Journal, 2001:126s-136s) describe un experimento para pronosticar diferentes propieda- 
des de las soldaduras de titanio. Entre otras propiedades, se midió la elongación (en %), junto con los contenidos de oxígeno y 
de nitrógeno (ambos en %). El siguiente resultado de MINITAB presenta los resultados del ajuste del modelo. 


Elongación = f, + f, Oxígeno + $) Nitrógeno + fz Oxígeno - Nitrógeno 


The regression equation is 
Elongation = 46.80 - 130.11 Oxygen - 807.1 Nitrogen + 3580.5 Oxyx*Nit 


Predictor Coef SE Coef T Pp 
Constant 46.802 3.702 12.64 0.000 
Oxygen - 130.11 20.467 -6.36 0.000 
Nitrogen - 807.10 158.03 -5.107 0.000 
Oxy*Nit 3580.5 958.05 34737 0.001 


S = 2.809 R-Sq = 74.5% R-Sqladj) = 72.3% 
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Analysis of Variance 


Source DF SS MS F Pp 
Regression 3) 805.43 268.48 34.03 0.000 
Residual Error 35 2716.11 7.89 

Total 38 1081.54 


a) Pronostique la elongación para una soldadura con un contenido de oxígeno de 0.15% y otro de nitrógeno de 0.01%. 


b) Si las dos soldaduras tienen un contenido de nitrógeno de 0.006%, y su contenido de oxígeno es diferente por 0.05%, ¿cuál 
predeciría que sea su diferencia en la elongación? 


c) Las dos soldaduras tienen contenidos de oxígeno idénticos, y contenidos de nitrógeno diferentes por 0.005%. ¿Esta es in- 
formación para pronosticar su diferencia en la elongación? Si es así, pronostique la elongación. Si no, explique qué infor- 
mación adicional se necesita. 


2. En relación con el ejercicio 1. 


a) Determine un intervalo de confianza de 95% para el coeficiente del oxígeno. 

b) Determine un intervalo de confianza de 99% para el coeficiente de nitrógeno. 

c) Determine un intervalo de confianza de 98% para el coeficiente del término de interacción del Oxígeno - Nitrógeno. 
d) ¿Puede concluir que $, < —75? Encuentre el P-valor. 


e) ¿Puede concluir que $, > —1 000? Encuentre el P-valor. 


3. El siguiente resultado de MINITAB es para una regresión múltiple. Algunos de los números aparecieron borrosos y por lo tan- 
to son ilegibles. Complete los números faltantes. 


Predictor Coef SE Coef Aj Pp 

Constant (a) 0.3501 0.59 0.568 

X1 1.8515 (b) 2.31 0.040 

X2 2.7241 0.7124 (c) 0.002 

S = (d) R-Sq = 83.4% R-Sqladj) = 80.6% 

Analysis of Variance 

Source DF SS MS F Pp 
Regression (e) (f) (9) (h) 0.000 
Residual Error 2 17.28 1.44 

Total (1) 104.09 


4. Una ingeniera prueba tres métodos diferentes para seleccionar un modelo lineal. Primero utiliza un método informal basado en 
el estadístico F, como se describió en la sección 8.3. Después realiza la rutina de los mejores subconjuntos, y encuentra el mo- 
delo con el mejor ajuste R? y otro con el mejor C, » de Mallows. Ello da como resultado que los tres métodos seleccionen el mis- 
mo modelo. La ingeniera dice que puesto que los tres métodos concuerdan, este modelo debe ser el mejor. Uno de sus colegas 
dice que otros modelos podrían ser igualmente buenos. ¿Quién tiene razón? Explique. 


5. En una simulación de 30 redes de computadoras móviles, se midieron la velocidad promedio, la pausa de tiempo y el número de 
vecinas. Una “vecina” es una computadora dentro del rango de transmisión de otra. En la tabla siguiente se presentan los datos. 
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Vecinas Velocidad Pausa Vecinas Velocidad Pausa Vecinas Velocidad Pausa 
10.17 5 0 9.36 5 10 8.92 5 20 
8.46 S 30 8.30 5 40 8.00 e] 50 
10.20 10 0 8.86 10 10 8.28 10 20 
7.93 10 30 TAS 10 40 7.56 10 50 
10.17 20 0 8.24 20 10 7.78 20 20 
7.44 20 30 7.30 20 40 7.21 20 50 
10.19 30 0 7.91 30 10 7.45 30 20 
71,30 30 30 7.14 30 40 7.08 30 50 
10.18 40 0 7142 40 10 7.32 40 20 
7.19 40 30 7.05 40 40 6.99 40 50 


a) Ajuste el modelo con vecinas como la variable dependiente, y las variables independientes Velocidad, Pausa, Velocidad - 


Pausa, Velocidad? y Pausa?. 


b) Construya un modelo reducido para eliminar algunas variables cuyos P-valores son grandes, y pruebe la credibilidad del 


c) 


modelo con una prueba F. 


Realice la gráfica de residuos contra valores ajustados para el modelo reducido. ¿Existen algunos indicadores de que el mo- 
delo es inadecuado? Si es así, ¿cuáles son? 


d) Alguien sugiere que un modelo que contenga Pausa y Pausa? como las únicas variables dependientes es adecuado. ¿Está de 


e) 


f) 


acuerdo? ¿Por qué sí o no? 


Utilizando un mejor software para determinar los mejores subconjuntos, encuentre los dos modelos con el valor R? más al- 
to para cada tamaño de modelo de una a cinco variables. Calcule C, y R? ajustado para cada modelo. 


z . PA Do A 
¿Qué modelo se selecciona para C, mínimo? ¿Para R” ajustado? ¿Son los mismos? 


. Los datos en la tabla SE6 constan de las mediciones de producción de muchas operaciones de una reacción química. Las can- 
tidades cambian con la temperatura en *C (x,), la concentración del reactivo fundamental en % (x>), y la duración de la reac- 
ción en horas (x3). La variable dependiente (y) es la fracción convertida al producto deseado. 


a) Ajuste el modelo lineal y = f, + Bix, + Pax, + B3x3 + e. 


b) De las dos variables en este modelo se tienen coeficientes significativamente diferentes de O al nivel 15%. Ajuste un mode- 


c) 


lo de regresión lineal que contenga estas dos variables. 


Calcule el producto (interacción) de las dos variables que se mencionan en el inciso b). Ajuste el modelo que contiene las 
dos variables junto con el término de interacción. 


d) Con base en los resultados de los incisos a) al c), especifique un modelo que parezca bueno para pronosticar y a partir de 


e) 


Xi» X2 Y X3. 


¿Podría ser posible construir un modelo igualmente bueno de otra manera? 
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TABLA SE6 Datos para el ejercicio 6 


7. En un estudio para pronosticar la temperatura de la presión atmosférica en un dispositivo pistón-cilindro, se hicieron 19 medi- 
ciones de la temperatura en *F (y) y de la presión del aire en psi (x). Se ajustaron tres modelos: el modelo lineal y = f, + fx 
+ e, el cuadrático y = fB, + Bix + Ba? + €, y el cúbico y = fB, + Bix + Pa? + Bix? + e. En la tabla siguiente se presentan 
los residuos y los valores ajustados para cada modelo. Realice una gráfica de los residuos contra los valores ajustados para ca- 
da modelo. Para cada uno de éstos establezca si es adecuado y explique. 
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Modelo lineal Modelo cuadrático Modelo cúbico 
Residuo Ajuste Residuo Ajuste Residuo Ajuste 
—56.2 125.6 11.2 58.2 3.3 66.1 
—34.0 153.1 —7,4 126.5 —6.7 125.7 
8.4 179.8 4.9 183.4 9.2 179.0 
21.4 207.2 —3.6 232.2 0.9 227.8 
28.6 234.7 —8.2 271.5 —5.9 269.2 
46.9 260.9 8.1 299.7 7.3 300.5 
47.2 288.1 15.7 319.6 12.1 323.2 
8.5 314.4 —7.0 329.8 —-11.7 334.6 
—7.1 342.0 4.0 330.9 1.0 333.9 
—47.1 139.3 1.3 93.6 —4.1 96.4 
—1.6 166.2 9.1 155.5 12.1 152.5 
38.0 220.9 5.9 253.0 9.5 249.4 
35.7 247.8 3.2 286.7 —2.4 286.0 
34.1 213,1 -2.1 311.3 —4.5 313.7 
34.6 301.1 9.9 325.8 55 330.2 
1.0 328.2 —2.4 331.6 —6.7 335.9 
23.2 355.3 4.1 327.9 3.5 328.5 
—50.7 368.4 —5.0 322.1 -2.1 319.9 
—72.9 382.1 =5.1 314.9 2.1 307.1 


. El voltaje de salida (y) de una batería se mide en un rango de temperaturas (x) desde 0*C hasta 50*C. La siguiente tabla repre- 
senta un diagrama de dispersión del voltaje contra la temperatura, con tres curvas ajustadas sobrepuestas. Las curvas son el mo- 
delo lineal y = f, + fx + e, el cuadrático y = f, + Bjx = Buú + e, y el cúbico, y = B, + Bix + Par? + Bu? + €. Con base 
en la gráfica, ¿cuál de los modelos se debe utilizar para describir los datos? Explique. 


1) El modelo lineal. 
11) El modelo cuadrático. 
111) El modelo cúbico. 


iv) Todos parecen ser igualmente buenos. 


115 
110 
105 
100 


95 


Voltaje de salida (V) 


90 


85 ] ] ] 
0 10 20 30 40 50 
Temperatura (*C) 
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9. 


10. 


11. 


En relación con el ejercicio 2 de la sección 8.2. 


a) Utilizando cada uno de los tres modelos, pronostique la emisión de NO, cuando Velocidad = 1 500, Momento de torsión 


= 400 y HP = 150. 

b) Utilizando cada uno de los tres modelos, pronostique la emisión de NO, cuando Velocidad = 1 600, Momento de torsión 
= 300 y HP = 100. 

c) Utilizando cada uno de los tres modelos, pronostique la emisión de NO, cuando Velocidad = 1 400, Momento de torsión 
= 200, y HP = 75. 


d) ¿Cuál(es) modelo(s) parece(n) ser el(los) mejor(es)? Elija una de las respuestas y explique. 
i) El modelo con Velocidad y Momento de torsión como variables independientes es el mejor. 
ii) El modelo con Velocidad y HP como variables independientes es el mejor. 
iii) El modelo con Velocidad, Momento de torsión y HP como variables independientes es el mejor. 


iv) El modelo con Velocidad y Momento de torsión y el modelo con Velocidad y HP son casi igualmente buenos; ambos 
son mejores que el modelo con Velocidad, Momento de torsión y HP. 


v) El modelo con Velocidad y Momento de torsión y el modelo con Velocidad, Momento de torsión y HP son casi igual- 
mente buenos; ambos son mejores que el modelo con Velocidad y HP. 

vi) El modelo con Velocidad y HP y el modelo con Velocidad, Momento de torsión y HP son casi igualmente buenos; am- 
bos son mejores que el modelo con Velocidad y Momento de torsión. 


vii) Todos los modelos son casi igualmente buenos. 


Este ejercicio ilustra una razón para las excepciones a la regla de la parsimonia (véase la p. 584). 


a) Un científico ajusta el modelo Y = fB,C + e, donde C representa la temperatura en *C y Y pueden representar cualquier re- 
sultado. Observe que el modelo no tiene intercepto. Ahora convierta “C a 9F (C = 0.556F — 17.78). ¿Ahora el modelo tie- 
ne intercepto? 


b) Otro científico ajusta el modelo Y = fB, + fB,C?, donde C y Y son como en el inciso a). Observe que el modelo tiene un tér- 
mino numérico cuadrático, pero ningún término lineal. Convierta *C a “F (C = 0.556F — 17.78). ¿Ahora el modelo tiene 
un término lineal? 


c) Suponga que x y z son dos unidades diferentes que se pueden utilizar para medir la misma cantidad, y que z = a + bx, don- 
de a%0. (*C y “F son un ejemplo.) Muestre que los modelos sin intercepto y = Bx y y = Pz no pueden ser correctos, por 
lo que la validez de que no tengan intercepto depende del punto cero de las unidades para la variable independiente. 


d) Sea x y z como en el inciso c). Muestre que los modelos y = fl, + Bax? y y = B, + PB, no pueden ser correctos, y, por tan- 
to, la validez del modelo depende del punto cero para las unidades de la variable independiente. 


Los datos que se presentan en la tabla siguiente dan la fuerza de tensión en psi (y) del papel como función de los porcentajes 
de contenido de madera dura (x). 


Contenido de Fuerza Contenido de Fuerza 

madera dura de tensión | madera dura de tensión 
1.0 26.8 7.0 52.1 
1.5 29.5 8.0 56.1 
2.0 36.6 9.0 63.1 
3.0 37.8 10.0 62.0 
4.0 38.2 11.0 62.5 
4.5 41.5 12.0 58.0 
5.0 44.8 13.0 52.9 
5.5 44.7 14.0 38.2 
6.0 48.5 15.0 32.9 
6.5 50.1 16.0 21.9 
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a) Ajuste modelos polinomiales de grados 1, 2, etcétera, para pronosticar la fuerza de tensión a partir del contenido de made- 
ra dura. Por cada uno, utilice la prueba F' para comparar con el grado del modelo menos uno. Pare cuando el P-valor de la 
prueba F' sea mayor de 0.05. ¿Cuál es el grado del modelo polinomial elegido por este método? 


b) Utilizando el modelo del inciso a), estime la concentración de madera dura que produce la fuerza de tensión más alta. 


12. El artículo “Enthalpies and Entropies of Transfer of Electrolytes and lons from Water to Mixed Aqueous Organic Solvents” (G. 
Hefter, Y. Marcus y W. Waghorne, en Chemical Reviews, 2002:2773-2836) presenta mediciones de entropía y cambios de en- 
talpía para muchas sales bajo diferentes condiciones. La tabla siguiente presenta los resultados para las transferencias de entro- 
pía (en J/K - mol) de agua a agua + metanol de NaCl (sal de mesa) en un rango de concentraciones de metanol: 


Concentración (%) Entropía 

5 1 
10 —1 
20 =1 
30 17 
40 —28 
50 —-39 
60 =52 
70 —65 
80 —80 
90 —98 
100 —121 


a) Ajuste modelos polinomiales de grados 1, 2 y 3 para pronosticar la entropía (y) a partir de la concentración (x). 
b) ¿Qué grado del polinomio es el más adecuado? Explique. 


c) Utilizando el modelo más adecuado, determine los intervalos de confianza de 99% para los coeficientes. 


13. Una compañía de pintura recopila datos acerca de la durabilidad de su pintura y de sus competidores. Midieron los tiempos de 
vida de tres muestras de cada tipo de pintura en algunas ciudades estadounidenses. Los resultados se consignan en la tabla SEI3. 


TABLA SE13 Datos para el ejercicio 13 


Temperatura 

promedio (*F) Media anual Tiempo de vida (años) 
Ciudad Enero Julio Precipitación (pulg.) Pintura del patrocinador Pintura de la competencia 
Atlanta, GA 419 78.6 48.6 115 10.7 12,3 10.8 11.1 10.2 
Boston, MA 296 73.5 43.8 11.7 10.1 12.5 10.7 11.6 11.0 
Kansas City, KS 28.4 80.9 29.3 123 134 12.8 118 122 11.3 
Minneapolis, MN 11.2 73.1 26.4 105 99 11.2 104 96 9.2 
Dallas, TX 45.0 86.3 34.2 112 10.6 12.0 10.6 10.1 11.4 
Denver, CO 293 “713.3 135:3 15.2 142 13.8 134 14.4 13.2 
Miami, FL 67.1. 82.4 ES 87 79 94 8.1 86 7.6 
Phoenix, AZ 52.3 92,3 7.1 11.1 118 12.4 10.9 10.1 9.9 
San Francisco, CA 48.5 62.2 19.7 16.7 17.2 15.9 15.8 15.4 14.9 
Seattle, WA 40.6 65.3 38.9 142 14.1 13.6 12.6 13.6 14.1 


Washington, DC 35.2 78.9 39.0 12.6 115 12.0 119 10.9 11.4 
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14. 


15. 


a) La prueba previa sugiere que los factores más importantes que influyen en la vida de las capas de pintura son la tempera- 
tura mínima (estimado por el promedio de la temperatura de enero), la temperatura máxima (estimado por el promedio de 
la temperatura de julio) y la precipitación anual. Utilizando estas variables, y productos y potencias de estas variables, cons- 
truya un buen modelo para predecir el tiempo de vida de la pintura del patrocinador y un buen modelo (quizás diferente) 
para pronosticar el tiempo de vida de la pintura del competidor. 


b) Utilizando los modelos desarrollados en el inciso a), calcule los tiempos de vida esperados para estas dos pinturas para al- 
guien que vive en Cheyenne, Wyoming, donde la temperatura promedio de enero es 26.19F; la de julio, 68.9%, y la media 
de la precipitación anual, 13.3 pulg. 


El artículo “Two Different Approaches for RDC Modelling When Simulating a Solvent Deasphalting Plant” (J. Aparicio, M. 
Heronimo y cols., Computers and Chemical Engineering, 2002:1369-1377) notifica la razón de flujo (en dm'/h) y las medicio- 
nes de peso específico para una muestra de hidrocarburos parafínicos. Los logaritmos naturales de las tasas de flujo (y) y de las 
mediciones del peso específico (x) se presentan en la tabla siguiente. 


y x 
1.204 0.8139 
0.580 0.8171 

0.049 0.8202 
0.673 0.8233 
1.311 0.8264 
1.959 0.8294 
2.614 0.8323 
3.270 0.8352 


a) Ajuste al modelo lineal y = f, + fx + e. Para cada coeficiente pruebe la hipótesis de que el coeficiente es igual a 0. 


b) Ajuste al modelo cuadrático y = fp + Bix + Pax? + e. Para cada coeficiente pruebe la hipótesis de que el coeficiente es 
igual a 0. 


c) Ajuste el modelo cúbico y = fB, + Bix + Pax? + Bix? + e. Para cada coeficiente pruebe la hipótesis de que el coeficiente 
es igual a 0. 


d 


e) Mediante el modelo más adecuado, estime la razón de flujo cuando el peso específico sea 0.83. 


= 


¿Cuál de los modelos en los incisos a) a c) es más adecuado? Explique. 


El artículo “Measurements of the Thermal Conductivity and Thermal Diffusivity of Polymer Melts with the Short-Hot-Wire 
Method” (X. Zhang, W. Hendro y cols., en International Journal of Thermophysics, 2002:1077-1090) describe mediciones de 
conductividad térmica (en W - m”! - K”?) y la difusividad de algunos polímeros a diferentes temperaturas (en 1 000%C). La si- 
guiente tabla presenta los resultados para la conductividad térmica de policarbonato. 


Conductividad Temperatura ||Conductividad Temperatura | [Conductividad Temperatura ||Conductividad Temperatura 


0.236 0.028 0.259 0.107 0.254 0.159 0.249 0.215 
0.241 0.038 0.257 0.119 0.256 0.169 0.230 0.225 
0.244 0.061 0.257 0.130 0.251 0.181 0.230 0.237 
0.251 0.083 0.261 0.146 0.249 0.204 0.228 0.248 


a) Denotando la conductividad por y y la temperatura por x, ajuste el modelo lineal y = fB, + fix + e. Para cada coeficiente 
pruebe la hipótesis de que el coeficiente es igual a 0. 


b) Ajuste el modelo cuadrático y = fp + Bix + Pax? + e. Para cada coeficiente pruebe la hipótesis de que el coeficiente es 
igual a O. 


16. 


17. 
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c) Ajuste el modelo cúbico y = B, + Bix + Pax? + Bix? + e. Para cada coeficiente pruebe la hipótesis de que el coeficiente 
es igual a 0. 


d) Ajuste el modelo cuártico y = f, + Bjx + Ba? + Bar + Bu? + e. Para cada coeficiente pruebe la hipótesis de que el coe- 
ficiente es igual a 0. 


e) ¿Cuál de los modelos de los incisos a) al d) es más adecuado? Explique. 


f) Utilizando el modelo más adecuado, calcule la conductividad a una temperatura de 120*C. 


El artículo “Electrical Impedance Variation with Water Saturation in Rock” (Q. Su, Q. Feng y Z. Shang, en Geophysics, 
2000:68-75) informa mediciones de permeabilidades (en 10? um?), porosidades (en %), y área superficial por unidad de vo- 
lumen del espacio del poro (en 10* cm”) para algunas muestras de roca. Los resultados se presentan en la tabla siguiente, de- 
notando In Permeabilidad por y, la porosidad por x;, y el área superficial por unidad de volumen por x). 


y X1 X2 y X1 X2 
—0.27 19.83 9.55 0.58 10.52 20.03 
2.58 17.93 10.97 —0.56 18.92 13.10 
3.18 21.27 31.02 —0.49 18.55 12.78 
1.70 18.67 28.12 —0.01 13.72 40.28 
—1.17 7.98 52.35 —1.71 9.12 53.67 
—0.27 10.16 32.82 —0.12 14.39 26.75 
—0.53 17.86 57.66 —0.92 11.38 75.62 
—0.29 13.48 21.10 2.18 16.59 9.95 
4.94 17,49 9.15 4.46 16.77 7.88 
1.94 14.18 11.72 2.11 18.55 88.10 
3.74 23.88 5.43 —0.04 18.02 10.95 


a) Ajuste el modelo y = f, + Bix; A 


E Box, + B3x¡x> + e. Calcule la tabla de análisis de varianza. 


b) Ajuste el modelo y = B, + fx, + fBrx, + e. Calcule la tabla de análisis de varianza. 


c) Ajuste el modelo y = f, + fx, + €. Calcule la tabla de análisis de varianza. 


d) Calcule los estadísticos F para comparar los modelos en los incisos b) y c) con el modelo del inciso a). ¿Qué modelo pre- 
fiere usted? ¿Por qué? 


El artículo “Groundwater Electromagnetic Imaging in Complex Geological and Topographical Regions: A Case Study of a Tec- 
tonic Boundary in the French Alps” (S. Houtot, P. Tarits y cols., Geophysics, 2002:1048-1060) presenta mediciones de concen- 
traciones de algunos químicos (en mmol/L) y la conductividad eléctrica (en 107? S/m) para varias muestras de agua en diferentes 
ubicaciones cerca del Lago Gittaz, en los Alpes franceses. En la tabla siguiente se presentan los resultados para el magnesio y 
el calcio. Se han eliminado dos datos atípicos. 


Conductividad Magnesio Calcio Conductividad Magnesio Calcio 
2.17 0.037 1.342 1.10 0.027 0.487 
3.03 0.041 1.500 1.11 0.039 0.497 
3.09 0.215 1.332 2.57 0.168 1.093 
3.29 0.166 1.609 3.27 0.172 1.480 
3.37 0.100 1.627 2.28 0.044 1.093 
0.88 0.031 0.382 3.32 0.069 1.754 
0.77 0.012 0.364 3:93 0.188 1.974 
0.97 0.017 0.467 4.26 0.211 2.103 
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18. 


19. 


20. 


a) Pronostique la conductividad (y) de las concentraciones de magnesio (x,) y del calcio (x»), ajuste al modelo cuadrático com- 
pleto y = By + Bix, + Pao + Par + Buxó + Bsxix, + €. Calcule la tabla de análisis de varianza. 


b) Utilice la prueba F para investigar algunos submodelos del modelo cuadrático completo. Establezca qué modelo prefiere y 
por qué. 

c) Utilice la rutina de mejores subconjuntos para encontrar los submodelos con el máximo R? ajustado y el mínimo C, de Ma- 
llows. ¿Son el mismo modelo? Comente sobre lo adecuado de este(estos) modelo(s). 


El artículo “Low-Temperature Heat Capacity and Thermodynamic Properties of 1,1,l-trifluoro-2,2-dichloroethane” (R. Varush- 
chenko y A. Druzhinina, en Fluid Phase Equilibria, 2002:109-119) presenta mediciones de la capacidad calorífica molar (y) 
de 1,1,1-trifluoro-2,2-dicloroetano (en J - K7. mol!) a diferentes temperaturas (x) en unidades de 10 K. Los resultados para 
cada décima medición se presentan en la tabla siguiente. 


y x y Xx 
5.7037 1.044 60.732 6.765 
16.707 1.687 65.042 7.798 
29.717 2.331 71.283 9.241 
41.005 3.604 75.822 10.214 
48.822 4.669 80.029 11.266 
55.334 5.722 


a) Ajuste al modelo lineal simple y = f, + fx + e. Realice una gráfica de residuos y el comentario sobre lo adecuado del 
modelo. 


b) Ajuste al modelo lineal simple y = f, + f, In x + e. Realice una gráfica de residuos y comente sobre lo adecuado del mo- 
delo. 

c) Calcule los coeficientes y sus desviaciones estándar para polinomios de grados 2, 3, 4 y 5. Realice gráficas de residuos pa- 
ra cada uno. 


d) El artículo citado al principio de este ejercicio recomienda el modelo cuártico y = B, + Bjx + Ba? + Py + Bu! + e. ¿Le 
parece razonable? ¿Por qué sí o no? 


El artículo “Lead Dissolution from Lead Smelter Slags Using Magnesium Chloride Solutions” (A. Xenidis, T. Lillis y 1. Halli- 
kia) analiza una investigación de las tasas de filtración de plomo en soluciones de cloruro de magnesio. Los datos en la tabla 
siguiente (leídos de una gráfica) presentan el porcentaje de plomo que se ha extraído en diferentes tiempos (en minutos). 


Tiempo (1) | 4 8 16 30 60 120 
Porcentaje extraído (y) | 1.2 16 23 2.8 3.6 4.4 


a) El artículo sugiere ajustar estos datos a un modelo cuadrático y = B, + B,t + Pf + e. Ajuste este modelo y calcule las 
desviaciones estándar de los coeficientes. 


b) La tasa reacción al tiempo 1 está dada por la derivada dy/dt = BP, + 2fB,t. Calcule el tiempo en que la tasa de reacción será 
igual a 0.05. 


c) La tasa de reacción en 1 = 0 es igual a f,. Determine un intervalo de confianza de 95% para la tasa de reacción en £ = 0. 


d) ¿Puede concluir que la tasa de reacción está disminuyendo con el tiempo? Explique. 


El artículo “The Ball-on-Three-Ball Test for Tensile Strength: Refined Methodology and Results for Three Hohokam Ceramic 
Types” (M. Beck, en American Antiquity, 2002:558-569) describe la resistencia de las cerámicas antiguas. La tabla siguiente 
presenta pesos medidos (en g), espesores (en mm), y las cargas (en kg) requeridas para agrietar un ejemplar de una colección 
de ejemplares fechados entre 1100 y 1300 que provienen del río Middle Gila, en Arizona. 


21. 


22. 
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Peso (Xx) Espesor (x,) Carga (y) 
12.7 5.69 20 
12.9 5.05 16 
17.8 6.53 20 
18.5 6.51 36 
13.4 5.92 27 
15.2 5.88 35 
13.2 4.09 15 
18.3 6.14 18 
16.2 3.13 24 
14.7 5.47 21 
18.2 7.32 30 
14.8 4.91 20 
177 6.72 24 
16.0 5.85 23 
17.2 6.18 21 
14.1 5.13 13 
16.1 5.71 21 


a) Ajuste al modelo y = Bj, + Bix, + Box, +e€. 
b) Elimine la variable cuyo coeficiente tiene el mayor P-valor, y repita el ajuste. 


c) Realice la gráfica de residuos contra valores ajustados del modelo en el inciso b). ¿Hay señales de que el modelo es inade- 
cuado? 


El modelo lineal de partes en pasos: Sea X una constante conocida, y suponga que una variable dependiente y está relaciona- 
da con una variable independiente x,, como se muestra a continuación: 


BrBirite o six <xY 
y= * * E — 
Bi +Bixi+e Six >x 


En otras palabras, y y x, están relacionados linealmente, pero son adecuadas diferentes rectas si x, E Xx 0 x, > X. Defina una 
nueva variable independiente x, por 


0 six, <xX 
X2 = 


lo six >X 


También defina PB, = Bj — Bo y Pz = Bi — P,. Determine un modelo de regresión múltiple que implique a y, x;, x», Bo, B;, PB 
y Pz que exprese la relación descrita aquí. 


El artículo “Seismic Hazard in Greece Based on Different Strong Ground Motion Parameters” (S. Koutrakis, G. Karakaisis y 
cols., en Journal of Earthquake Engineering, 2002:75-109) presenta un estudio de episodios sísmicos en Grecia durante 1978- 
1997. Es de interés la duración de los “fuertes movimientos de tierra”, que es el tiempo en que la aceleración de la tierra exce- 
de un valor específico. En cada episodio las mediciones de la duración de temblores fuertes de tierra se hicieron en una o más 
ubicaciones. La tabla SE22 de la página 618 presenta cada uno de 121 temblores medidos, los datos con el tiempo de duración 
y (en segundos) durante los cuales la aceleración de la tierra excedió el doble de la aceleración de la gravedad. La magnitud m 
del sismo, la distancia d (en km) de la medición desde el epicentro, y los dos indicadores del tipo de suelo s, y s», definidos de 
la siguiente manera: s, = 1 si el suelo consta de depósitos aluviales blandos, s, = O de otra manera, y s,= 1 si el suelo cons- 
ta de rocas terciarias o más viejas, s, = O de otra manera. Los casos donde tanto s, = O como s, = O corresponden a condicio- 
nes intermedias del suelo. El artículo presenta mediciones repetidas en algunas ubicaciones que no se incluyen aquí. 
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TABLA SE22 Datos para el ejercicio 22 


y m ds, S, S; S, m ds, S, 
8.82 6.4 30 1 0 0 0 5.6 15 0 0 
4.08 3.2 7 0 0 1 0 6.9 128 1 0 

15.90 6.9 105 ll 0 0 0 5.1 13 0 0 
6.04 5.8 15 0 0 0 0 3.2 19 1 0 
0.15 4.9 16 1 0 1 0 6.2 68 1 0 
5.06 6.2 13 1 0 0 0 5.4 10 0 0 
0.01 6.6 119 0 1 1 0 3.1 45 0 1 
4.13 5.1 10 1 0 0 0 32 18 1 0 
0.02 5.3 22 0 1 0 1 4.8 14 0 1 
2.14 4.5 12 0 il 1 0 1 15 0 0 
4.41 5,2 17 0 0 0 1 5.2 13 0 0 

17.19 5.9 9 0 0 0 0 ES) 1 0 0 
5.14 5.5 10 1 0 0 1 5.0 6 0 1 
0.05 4.9 14 1 0 0 0 4.6 21 1 0 

20.00 5.8 16 1 0 1 0 4.7 20 1 0 

12.04 6.1 31 0 0 0 0 Dl 39 1 0 
0.87 5.0 65 1 0 0 0 5.0 44 1 0 
0.62 4.8 11 1 0 1 0 dl 2 1 0 
8.10 5.4 12 1 0 1 0 4.9 14 1 0 
1.30 5.8 34 Jl 0 1 0 5.6 5 1 0 

11.92 5.6 3 0 0 1 0 3.3 12 1 0 
3.93 5.7 65 1 0 1 0 5.1 28 1 0 
2.00 5.4 27 0 1 1 0 5.4 35 0 0 
0.43 5.4 31 0 1 0 1 5.4 32 1 0 

14.22 6.5 20 0 1 1 0 6.5 61 0 1 
0.06 6.5 7 0 1 0 0 5.2 9 0 0 
1.48 92 27 0 0 0 0 4.6 9 0 0 
3.27 Del 12 0 0 0 0 32 22 0 0 
6.36 3.2 14 0 0 0 0 5.0 8 0 0 
0.18 5.0 19 0 0 0 0 4,5 6 0 0 
0.31 4.5 12 0 0 0 0 4.7 18 0 dl 
1.90 4.7 12 0 0 0 0 4.5 17 0 0 
0.29 4.7 5 1 0 1 0 4.8 5 0 1 
6.26 6.3 9 1 0 0 1 4,5 3 1 0 
3,44 5.4 4 1 0 0 1 4.5 1 1 0 
2.32 5.4 5 1 0 1 0 4.7 3 1 0 
1.49 5.0 4 1 0 0 1 5.4 1 1 0 
2.85 5.4 1 0 1 0 1 6.4 104 0 0 
0.01 6.4 86 0 Il 0 1 6.6 51 1 0 
9.34 6.6 116 0 Jl 0 1 6.6 65 1 0 

10.47 6.6 117 0 0 


Con los datos de la tabla SE22 construya un modelo lineal para pronosticar la duración y a partir de alguna o de todas las 
variables m, d, s¡ y s,. Asegúrese de considerar las transformaciones de las variables, así como las potencias de y las interac- 
ciones entre las variables independientes. Describa sus pasos para construir su modelo. Realice una gráfica de residuos contra 
valores ajustados para comprobar que su modelo satisface los supuestos necesarios. Además, observe que los datos se presen- 
tan en orden cronológico, al leer hacia abajo en las columnas. Realice una gráfica para determinar si se debe incluir al tiempo 
como una variable independiente. 
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23. El artículo “Estimating Resource Requirements at Conceptual Design Stage Using Neural Networks” (A. Elazouni, I. Nosair y 
cols., en Journal of Computing in Civil Engineering, 1997:217-223) sugiere que ciertos requerimientos de recursos en la cons- 
trucción de silos de concreto se puede pronosticar a partir de un modelo. Éstos incluyen la cantidad de concreto en m' (y), el 
número de personas por días de trabajo (z), o el número de horas de la mezcladora de concreto (w) necesarios para un trabajo 
dado. La tabla SE23A define 23 variables independientes potenciales que se pueden usar para pronosticar y, z o w. Los valo- 
res de las variables dependientes e independientes, reunidos en 28 trabajos de construcción, se presentan en las tablas SE23B 
de la página 620 y de la tabla SE23C en la página 621. A menos que se establezca otra situación, las longitudes están en m, las 
áreas en m? y los volúmenes en m'. 


a) 


b) 


c) 


d 


= 


e) 


Utilizando la regresión de los mejores subconjuntos, determine el mejor modelo para pronosticar y de acuerdo con el crite- 
rio de R? ajustado. 

Utilizando la regresión de los mejores subconjuntos, determine el mejor modelo para pronosticar y de acuerdo con el crite- 
rio del C,, mínimo de Mallows. 


Determine un modelo para pronosticar y usar la regresión paso a paso. Explique el criterio que está usando para determi- 
nar qué variables agregar o eliminar del modelo. 

Utilizando la regresión de los mejores subconjuntos, determine el mejor modelo para pronosticar z de acuerdo con el crite- 
rio del R? ajustado. 

Utilizando la regresión de los mejores subconjuntos, determine el mejor modelo para predecir z de acuerdo con el criterio 
del C, mínimo de Mallows. 


Determine un modelo para pronosticar z usando la regresión paso a paso. Explique el criterio que está usando para deter- 

minar qué variables agregar o eliminar del modelo. 

Utilizando la regresión de los mejores subconjuntos, determine el mejor modelo para pronosticar w de acuerdo con el cri- 
. a . 

terio del R” ajustado. 

Mediante la regresión de los mejores subconjuntos, determine el mejor modelo para pronosticar w de acuerdo con el crite- 

rio del C,, mínimo de Mallows. 


Determine un modelo para pronosticar w utilizando la regresión paso a paso. Explique el criterio que está usando para de- 
terminar qué variables agregar o eliminar del modelo. 


TABLA SE23A Descripción de las variables para el ejercicio 23 


Número de cubos x13 Cociente amplitud-espesor 
Máximo concreto requerido por hora X14 Perímetro del complejo 
Altura x15 Capacidad de mezcla 
Razón de deslizamiento de la cimbra (m/día) x1ó Densidad de material almacenado 
Número de etapas de construcción x17 Porcentaje de desechos para reforzar el acero 
Perímetro de la cimbra X1g Porcentaje de desechos de concreto 
Volumen de complejo de silos X19 Número de trabajadores en el equipo de concreto 
Área superficial de las paredes del silo X2p Espesores de la pared (cm) 
Volumen de un cubo X21 Número de trabajadores en los equipos que refuerzan el concreto 
Áreas de pared a piso X22 Número de trabajadores que forman los equipos 
Número de gatos de elevación X23 Cociente longitud-amplitud 

2 Cociente longitud-espesor 
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TABLA SE23B Datos para el ejercicio 23 
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y z w Xx X X3 Xa X5 X6 X7 Xg Xg X10 Xa1 
1850 9520 476 33 45 19.8 4.0 4 223 11 072 14 751 339 26.1 72 
932 4272 268 24 33 ZAS 4.0 2 206 2615 8875 109 27.9 64 
556 3296 206 18 DI 20.3 5.0 2 130 2 500 $321 139 28.4 48 
217 1 088 68 9 3.2 11.0 4.5 1 152 1270 1675 141 11.6 40 
199 2587 199 2 1.0 23.8 5.0 1 79 1370 7260 685 17.1 21 
56 1560 120 2 0.5 16.6 5.0 1 43 275 1980 137 22.0 15 
64 1534 118 2 0.5 18.4 5.0 1 43 330 825 165 23.6 12 
397 2 660 133 14 3.0 16.0 4.0 1 240 5 200 18 525 371 12.8 74 
1926 11020 551 42 303 160 4.0 4 280 15 500 3 821 369 12.8 88 
724 3 090 103 13 7.8 15.0 3.5 1 374 4 500 5 600 300 12.2 114 
711 2 860 143 2) 5.0 16.0 3.5 1 315 2 100 6851 87 24.8 60 
1818 9900 396 28 4.8 22.0 4.0 3 230 13 500 13 860 482 17.6 44 
619 2 626 202 12 3.0 18.0 5.0 1 163 1 400 2935 115 26.4 36 
375 2 060 103 12 5.8 15.0 3.5 1 316 4200 4 743 350 11.8 93 
214 1600 80 12 3) 15.0 4.5 1 193 1300 2 988 105 20.6 40 
300 1820 140 6 2.1 14.0 5.0 1 118 800 1657 133 17.0 24 
771 3 328 256 30 3.0 14.0 5.0 3 165 2 800 2318 92 19.9 43 
189 1 456 91 12 4.0 17.0 4.5 1 214 2 400 3 644 200 13.6 53 
404 4160 320 27 33 20.0 4.5 3 178 6750 3 568 250 14.0 44 
389 1520 95 6 4.1 19.0 4.0 1 158 2 506 3011 401 11.8 38 
441 1760 110 6 4.0 22.0 5.0 1 154 2 568 3 396 428 14.1 35 
768 3 040 152 12 5.0 24.0 4.0 1 275 5376 6619 448 14.5 65 
797 3 180 159 9 5.0 25.0 4.0 1 216 4514 5 400 501 14.8 52 
261 1 131 87 3 3.0 17,5 4.0 1 116 1568 2 030 522 10.5 24 
524 1904 119 6 4.4 18.8 4.0 1 190 3291 3572 548 9.8 42 
1262 5070 169 15 7.0 24.6 3.5 1 385 8970 9 490 598 12.9 92 
839 7080 354 9 5.2 25.5 4.0 1 249 5 845 6364 649 13.9 60 
1 003 3 500 175 9 37 2 4.0 1 246 6 095 6 248 677 15.1 60 
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TABLA SE23C Datos para el ejercicio 23 


X12 X13 X14 X15 X16 X17 X18 X19 X20 X21 X22 X23 
19.6 17.6 745 0.50 800 6.00 5.50 10 24 7 20 1,12 
16.0 16.0 398 0.25 600 7.00 5.00 10 20 6 20 1.00 
15.3 13.5 262 0:25 850 7.00 4.50 8 20 5 18 1.13 
17.0 13.8 152 0.25 800 5.00 4.00 8 25 6 16 1:23 
28.1 ZO 79 0.15 800 7.50 3.50 5 20 4 14 1.02 
20.3 20.0 43 0.15 600 5.00 4.00 3 15 1 12 1.02 
24.0 18.3 43 0.15 600 5.05 4.25 5 15 2 12 1.31 
27.5 23.0 240 0.25 600 6.00 4.00 8 20 7 22 1.20 
21. 23.0 1121 0.25 800 8.00 4.00 10 20 9 24 1.20 
21.2 18.4 374 0.75 800 5.00 3.50 10 25 12 24 MLS 
10.6 10.0 315 0.50 800 6.00 4.00 10 2) 11 20 1.06 
20.0 20.0 630 0.50 800 7.00 5.00 10 25 9 18 1.00 
13.7 13.9 163 0.25 600 6.00 4.50 8 18 11 18 1.20 
20.4 20.4 316 0.50 800 6.50 3.50 10 25 6 14 1.00 
13.6 10.2 193 0.50 800 5.00 3.50 10 25 4 14 1.33 
13.6 12.8 118 0.25 800 5.00 3.19 8 25 6 14 1.06 
13.6 9.6 424 0.25 800 5.00 3.75 8 25 6 14 1.42 
18.5 16.0 214 0.50 600 6.00 4.00 8 20 4 14 1.15 
19.5 16.0 472 0.25 600 6.50 4.50 10 20 3 14 1.20 
21.0 12.8 158 0.50 800 5.50 3.50 6 23 8 14 1.30 
20.8 16.0 154 0.50 800 7.00 4.00 8 36 8 14 1.35 
23.4 17.3 275 0.50 600 7.50 5.50 8 22 11 16 1.40 
16.8 15.4 216 0.50 800 8.00 5.50 8 28 12 16 1.10 
26.8 17.8 116 0.25 850 6.50 3.00 6 23 5 14 1.50 
23.6 16.1 190 0.50 850 6.50 4.50 5 28 9 16 1.45 
23.6 16.6 385 0.75 800 8.00 6.50 15 25 16 20 1.43 
25.6 16.0 249 0.50 600 8.00 5.50 12 2) 13 16 1.60 
223 14.3 246 0.50 800 8.50 6.00 8 28 16 16 1:55 


24. El artículo que se cita en el ejercicio 23 presenta valores para las variables dependientes e independientes para diez trabajos de 
construcción adicionales. Estos valores se presentan en las tablas SE24A y SE24B de la página 622. 


a) Utilizando la ecuación construida en el inciso a) del ejercicio 23, pronostique la cantidad concreta (y) para cada uno de es- 
tos diez trabajos. 


b) Denotando los valores pronosticados por 5, . . ., Yy y los valores observados por y, . . ., y¡p, calcule las cantidades y, — ),. 
Estos son los errores de predicción. 


c) Calcule los valores ajustados $), . . . , Pag a partir de los datos del ejercicio 23. Utilice los valores observados y,, ...., Y>g A 
partir de esos datos, calcule los residuos y, — Y,. 


d) En general, ¿cuáles son más grandes, los residuos o los errores de predicción? ¿Por qué será cierto esto en general? 
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TABLA SE24A Datos para el ejercicio 24 


y z wW X * X3 Xa  X5 X6 Xx Xg Xg X10 X11 
1713 3 400 170 6 42 270 4.0 1 179 4200 4 980 700.0 15.1 42 
344 1616 101 3 34 200 5.0 1 1138 2255 2672 751.5 16.7 30 
474 2 240 140 3 34 280 5.0 1 116 2396 3259 798.8 17.0 24 
1336 5700 190 15 70 260 3.5 1 344 12284 9 864 818.9 16.0 86 
1916 9125 365 18 56 265 3,5 2 307 15435 8 140 8525 12.4 68 
1280 11980 599 9 21 283 4.0 1 283 8 064 8 156 896.0 14.0 68 
1 683 639 213 12 79 290 3.5 1 361 11 364 10 486 947.0 13.4 87 
901 2656 166 6 54 295 45 1 193 5 592 5 696 920 148 39 
460 2 943 150 3 30 300 5.0 1 118 2 943 3 540 981.0 17.2 26 
826 3 340 167 6 49 298 4,5 1 211 6 000 6293 1 000.0 15.1 50 
TABLA SE24B Datos para el ejercicio 24 
X12 X13 X14 Xa15 X16 X17 X18 X19 X20 X21 X22 X23 
22.5 14.8 179 0.50 850 8.0 5.0 6 28 11 16 1452 
32.0 18.8 133 0.25 800 7.5 3.0 10 25 7 14 1.70 
24.6 15.0 116 0.25 800 9.0 4.0 10 28 9 14 1.65 
20.2 21.1 344 0.75 850 8.5 6.5 12 28 19 18 1.72 
30.0 13,2 540 0.50 600 6.5 7.0 15 25 12 18 1.75 
25.3 14.3 283 0.25 800 eS 6.5 14 30 20 16 1.80 
22.1 14.0 361 0.75 800 9.0 7.0 10 30 25 18 1.42 
20.5 16.0 193 0.50 850 93 5.5 10 30 15 16 1.20 
26.0 20.1 118 0.25 600 10.0 4.0 10 25 8 14 1.30 
32.0 20.0 211 0.50 600 9.5 5.0 10 25 13 16 1.90 


Capítulo 


Experimentos 
factoriales 


Introducción 


Los experimentos son esenciales para desarrollar y mejorar los métodos científicos y de inge- 
niería. Sólo mediante la experimentación se pueden comparar las diferentes variantes de un 
método con el fin de comprobar cuál es el más efectivo. Para que sea útil, un experimento se 
debe diseñar adecuadamente, y los datos que se obtienen de éste se deben analizar en forma 
correcta. En este capítulo se analizan el diseño y el análisis de datos a partir de una clase de 
experimentos conocidos como experimentos factoriales. 


9.1 Experimentos de un solo factor 


Se inicia con un ejemplo. El artículo “An Investigation of the CaCOz-CaF,-K>S103-Si0,-Fe 
Flux System Using the Submerged Arc Welding Process on HSLA-100 and AIST-1081 Steels” 
(G. Fredrickson, tesis de maestría, Escuela de Minas de Colorado, 1992) describe un experi- 
mento en el que se prepararon flujos de soldadura con diferentes composiciones químicas. Se 
hicieron varias soldaduras utilizando cada flujo sobre metal con base de acero AISI-1018. La 
tabla 9.1 presenta los resultados de las mediciones de la dureza, en la escala de Brinell, de 
cinco soldaduras que usan cada uno de los cuatro flujos. 


TABLA 9.1 Dureza de Brinell de soldaduras que utilizan cuatro flujos diferentes 


Flujo Valores de la muestra Media muestral Desviación estandar muestral 
A 250 264 256 260 239 253.8 9.7570 
B 263 254 267 265 267 263.2 5.4037 
e 257 279 269 273 277 271.0 8.7178 
D 253 258 262 264 273 262.0 7.4498 
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CAPÍTULO 9 Experimentos factoriales 


La figura 9.1 presenta diagramas de puntos para las durezas que utilizan los cuatro flu- 
jos. Cada media muestral está marcada con una “X”. Es obvio que las medias muestrales di- 
fieren. En particular, las soldaduras que se hicieron con un flujo C tienen la media muestral 
mayor y las que usan el flujo A tienen la más pequeña. Por supuesto, existe incertidumbre en 
la media muestral, y la pregunta es si ésta difiere de la otra en una cantidad mayor que la que 
se podría considerar para la incertidumbre de una sola cantidad. Otra manera de redactar la 
pregunta es: ¿Se puede concluir que hay diferencias en las medias poblacionales entre los cua- 
tro tipos de flujos? 
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FIGURA 9.1 Diagramas de puntos para cada muestra en la tabla 9.1. Cada media mues- 
tral está marcada con una “X”. Las medias muestrales son un poco diferentes, pero los va- 
lores de muestra se traslapan considerablemente. 


Éste es un ejemplo de un experimento factorial. En general, un experimento factorial 
implica varias variables. Una de éstas es la variable respuesta, que en ocasiones se llama va- 
riable de salida o variable dependiente. Las otras se denominan factores. La pregunta indi- 
cada por un experimento factorial es si la variación de los niveles de los factores produce una 
diferencia en la media de la variable respuesta. En el experimento descrito en la tabla 9.1, la 
dureza es la respuesta, y hay un factor: tipo de flujo. Debido a que sólo hay un factor, éste es 
un experimento de un solo factor. Hay cuatro valores diferentes para el factor tipo de flujo 
en este experimento. Estos valores diferentes se denominan niveles del factor y también tra- 
tamientos. Por último, los objetos con los que se realizaron dichas mediciones se llaman uni- 
dades experimentales. Las unidades asignadas a un tratamiento dado se llaman réplicas. En 
el experimento anterior, las soldaduras son las unidades experimentales, y hay cinco réplicas 
para cada tratamiento. 

En este experimento de soldaduras, las cuatro composiciones particulares del flujo las 
eligió de manera intencional el experimentador, más que en forma aleatoria de una gran po- 
blación de flujos. Se dice que este experimento sigue un modelo de efectos fijos. En algunos 
experimentos, los tratamientos se eligen aleatoriamente de una población de tratamientos po- 
sibles. En este caso se dice que el experimento sigue un modelo de efectos aleatorios. Los 
métodos de análisis para estos dos modelos son los mismos, aunque las conclusiones se pue- 
den obtener a partir de sus diferencias. Se centrará la atención en los modelos de efectos fi- 
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jos. Posteriormente se analizarán algunas de las diferencias entre modelos de efectos fijos y 
aleatorios. 


Experimentos completamente aleatorios 


En este experimento de soldaduras se produjeron 20 soldaduras, cinco con cada uno de los 
cuatro flujos. Cada soldadura se produjo sobre una placa de base de acero diferente. Por tan- 
to, para operar el experimentador tuvo que elegir, de un total de 20 placas de base, un grupo 
de cinco soldaduras con flujo A, otro grupo de cinco con soldaduras con flujo B, y así suce- 
sivamente. El mejor camino para asignar las placas base para los flujos es en forma aleatoria. 
De este modo, el diseño experimental no favorecerá algún tratamiento sobre otro. Por ejem- 
plo, el experimentador podría numerar las placas de la 1 a la 20, y luego generar un ordena- 
miento aleatorio de los enteros del 1 al 20. Las placas cuyos números corresponden a los 
primeros cinco números de la lista se les asigna el flujo A, y así sucesivamente. Éste es un 
ejemplo de un experimento completamente aleatorio. 


Definición 


Un experimento factorial en el cual las unidades experimentales son asignadas a los 
tratamientos en forma aleatoria, con todas las asignaciones posibles siendo igualmente 
probables, se llama experimento completamente aleatorio. 


En muchas situaciones, en los resultados de un experimento puede incidir el orden en 
que se tomaron las observaciones. Por ejemplo, el desempeño de una máquina para hacer me- 
diciones podría cambiar con el tiempo, debido, por ejemplo, a un movimiento de calibración, 
o a efectos de calentamiento. En casos como éstos, el procedimiento ideal es hacer observa- 
ciones en orden aleatorio. Esto último requiere cambiar de tratamiento a tratamiento confor- 
me transcurren las observaciones, en lugar de hacer las que corresponden a un tratamiento 
específico en forma consecutiva. En algunos casos los cambios en los tratamientos implican 
tiempos o costos considerables, por lo que no es factible cambiar entre tratamientos. En situa- 
ciones de este tipo los tratamientos se deben realizar en un orden aleatorio, con todas las ob- 
servaciones que corresponden al primer tratamiento elegido de forma aleatoria para que opere 
primero, y así sucesivamente. 

En un experimento completamente aleatorio, es adecuado considerar que cada trata- 
miento representa una población, y a las respuestas observadas para las unidades asignadas a 
ese tratamiento como una muestra aleatoria simple de esa población. Por consiguiente, los da- 
tos del experimento constan de algunas muestras aleatorias, cada una proveniente de una po- 
blación diferente. Las medias poblacionales se llaman medias del tratamiento. Las 
preguntas de interés relacionadas con las medias de tratamiento son si son todas iguales, y si 
no, cuáles son diferentes, qué tan grandes son las diferencias, etcétera. 


Análisis de varianza de un sentido 


La determinación formal respecto a si las medias del tratamiento son diferentes requiere una 
prueba de hipótesis. Se inicia introduciendo la notación. Se tienen / muestras, cada una pro- 
veniente de un tratamiento diferente. Las medias del tratamiento se denotan por 


isos 
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No es necesario que los tamaños de muestra sean iguales, aunque es deseable, como se ana- 
lizará posteriormente en esta sección. Los tamaños de muestra se denotan por 


Visio dy 
El número total en todas las muestras combinadas se denota por N. 
N=J ++: + 
Las hipótesis que se desea probar son 
HB, : 1 =*** = y contra A, : dos o más de las u, son diferentes 


Si había solamente dos muestras, se podría utilizar la prueba £ de dos muestras (sección 6.7) 
para probar la hipótesis nula. Debido a que hay más de dos muestras, se utiliza un método co- 
nocido como análisis de varianza de un sentido (ANOVA, por sus siglas en inglés). Para de- 
finir el estadístico de prueba de un ANOVA, primero se desarrolla la notación para las 
observaciones muestrales. Debido a que hay varias muestras, se usa un subíndice doble para 
denotar las observaciones. Específicamente, sea X;, la ¡-ésima observación en la ¡-ésima mues- 
tra. La media de la ¡-ésima muestra se denota por X;. 
J; 
DN 
a AA (9.1) 
J; 
La gran media muestral, denotada por X, es el promedio de todos los elementos que se 
muestrean tomados en conjunto: 
I J; 
_ El a Xij 
N 


XxX. (9.2) 


Con un poco de álgebra se puede demostrar que la gran media muestral también es un pro- 
medio ponderado de las medias de las muestras: 


Y 
+ ¡a JA 
Y, = hi %. (9.3) 
N 
Respecto a los datos en la tabla 9.1, determine 1, J,,...,Jp N, Xy, X5, X. 


Solución 

Hay cuatro muestras, por lo que / = 4. Cada muestra contiene cinco observaciones, así J, = 
J, = Jz = J¿ = 5. El número total de observaciones es N = 20. La cantidad X,z es la tercera 
observación en la segunda muestra, que es 267. La cantidad X, es la media muestral de la ter- 
cera muestra. Este valor es Xy = 271.0. Por último, con la ecuación (9.3) se calcula la gran 
media muestral X. 


Xx - (5)053.8) + (5)1(63.2) + (5)Q71.0) + (5)(62.0) 


20 
= 262.5 
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La figura 9.2 presenta la idea detrás de un ANOVA de un sentido. La figura ilustra va- 
rias muestras hipotéticas provenientes de tratamientos diferentes, junto con sus medias mues- 
trales y la gran media muestral. Éstas están dispersas alrededor de la gran media muestral. El 
ANOVA de un sentido proporciona una manera de medir esta dispersión. Si aquéllas están 
muy dispersas, entonces es probable que las medias del tratamiento sean diferentes, y no se 
rechazará Ho. 


X X AXX 


A 
9 
pal 
es 


Xa, 


FIGURA 9.2 La variación de las medias muestrales alrededor de la gran muestra puede 
atribuirse tanto a la incertidumbre aleatoria como a las diferencias entre las medias del tra- 
tamiento. La variación dentro de una muestra particular alrededor de su propia media 
muestral sólo es atribuible a la incertidumbre aleatoria. 


La variación de las medias muestrales alrededor de la gran media muestral se mide por 
una cantidad que se llama suma total de cuadrados del tratamiento (SSTr, por sus siglas en 
inglés), que está dada por 


1 
SSTr = E JH, = Y (9.4) 
¡=1 
Cada término en la SSTr implica la distancia de las medias muestrales a la gran media. 
Observe que cada distancia al cuadrado está multiplicada por el tamaño de muestra que co- 
rresponde a su media muestral, por lo que las medias mayores para las muestras cuentan más. 
La SSTr indica cómo son diferentes las medias del tratamiento entre sí. Si la SSTr es grande, 
entonces las medias muestrales están muy dispersas, y es razonable concluir que las medias 
del tratamiento son diferentes y se rechaza Hy. Si, por otro lado, la SSTr es pequeña, enton- 
ces todas las medias muestrales son cercanas a la gran muestra y, por tanto, entre sí, por lo 
que es creíble que las medias del tratamiento sean iguales. 
Una fórmula equivalente para la SSTr, un poco más fácil de calcular a mano, es 


1 
SSTr= Y J,X,?— NX? (9.5) 
¡=1 

Para determinar si la SSTr es suficientemente grande para rechazar Hp, se compara con otra 
suma de cuadrados, que se llama suma de los cuadrados del error (SSE, por sus siglas en 
inglés). La SSE mide la diferencia en los puntos muestrales individuales alrededor de sus res- 
pectivas medias muestrales. Esta diferencia se mide al sumar los cuadrados de las distancias 

de cada punto a su propia media muestral. La SSE está dada por 
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IS 
SSE= Y Y (X;¡¡ — Y, )? (9.6) 


j=l ¡=1 


Las cantidades X;; — X; se llaman residuos, por lo que la SSE representa la suma de los cua- 
drados de los residuos. La SSE, a diferencia de la SSTr, depende solamente de las distancias 
de los puntos muestrales a partir de sus propias medias y no la afecta la ubicación de las me- 
dias del tratamiento con respecto a otra. Por tanto, la SSE sólo mide la variación aleatoria sub- 
yacente en el proceso que se está estudiando. Es análoga a la suma de los cuadrados del error 
en la regresión. 

Una fórmula equivalente para la SSE, que es un poco más fácil de calcular a mano, es 


I J; I 
74 2 
SSE = y Nx = SN y X,, (9.7) 
i=1 ¡=1 ¡=1 
Otra fórmula equivalente para la SSE que se basa en las variancias muestrales. Sea s;la va- 
rianza muestral de la ¡-ésima muestra. Entonces 
y; Y y 
XX) 
s?= aX a (9.8) 
SJ; —1 


Por lo que de la ecuación (9.8) se tiene que in — Xi)? = (J; — D)sf?. Cuando se sus- 
tituye en la ecuación (9.6) se obtiene 


I 
SSE = Y "(J; — Ds] (9.9) 


i=1 


Para los datos en la tabla 9.1, calcule la SSTr y la SSE. 


Solución 
Las medias muestrales se presentan en la tabla 9.1. Estas son 


Y, =238 X,=2%632 X =2110  X,=2620 


En el ejemplo 9.1 se calculó la gran media muestral de X_ = 262.5. Ahora se utiliza la ecua- 
ción (9.4) para calcular la SSTr: 


SSTr = 5(253.8 — 262.5) + 5(263.2 — 262.5) + 5(271.0 — 262.5 + 5(262.0 — 262.5) 
= 743.4 


Para calcular a la SSE se utilizará la ecuación (9.9), ya que las desviaciones estándar mues- 
trales s, ya se han presentado en la tabla 9.1. 


SSE = (5 — 109.7570Y + (5 — 1165.4037? + (5 — 1008.7178? + (5 — 7.4498? 
=1023.6 


Se pueden utilizar la SSTr y la SSE para construir un estadístico de prueba, suponien- 
do que se satisfacen los siguientes dos supuestos. 
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Supuestos para el ANOVA de un sentido 

Las pruebas de hipótesis usuales del ANOVA de un sentido son válidas en las condi- 

ciones siguientes: 

1. Las poblaciones en tratamiento deben ser normales. 

2. Las canes en tratamiento deben tener todas la misma varianza, que se deno- 
ta por a”. 


Antes de presentar el estadístico de prueba se explicará cómo funciona. Si los dos su- 
puestos para el ANOVA de un sentido se satisfacen aproximadamente, se pueden calcular las 
medias de la SSE y de la SSTr. La media de la SSTr depende de si A, es verdadera, porque 
la SSTr tiende a ser más pequeña cuando A, es verdadera y mayor cuando H, es falsa. La me- 
dia de la SSTr satisface la condición 


Hssr. = U — Do? cuando A, es verdadera (9.10) 
Hssr. > U — Do? cuando A, es falsa (9.11) 


El tamaño probable de la SSE, y por tanto, su media, no depende de que HA, sea verdadera. La 
media de la SSE está dada por 


Hssk = (WN — Do? si A, es o no verdadera (9.12) 


Las deducciones de las ecuaciones (9.10) y (9.12) se presentan al final de esta sección. 

Las cantidades / — 1 y N — [ son los grados de libertad para la SSTr y la SSE, res- 
pectivamente. Cuando una suma de cuadrados se divide entre sus grados de libertad, la can- 
tidad obtenida se llama media cuadrática. La media cuadrática de tratamiento se denota 
por MSTr, y la media cuadrática del error se denota por MSE. Se definen por 


SssTi SSE 
MSTr=2%  MSE=>— (9.13) 
1-1 NI 
De las ecuaciones (9.10) a la (9.13) se tiene que 
Pmstr = a? cuando A, es verdadera (9.14) 
Must: > O cuando HA, es falsa (9.15) 
HmsE = O si Ay es o no verdadera (9.16) 


Las ecuaciones (9.14) y (9.16) muestran que cuando A, es verdadera, la MSTr y la MSE 
tienen la misma media. Por tanto, cuando A, es verdadera, se esperaría que su cociente esté 
cerca de 1. Este cociente es, en efecto, el estadístico de prueba. Éste para probar H, : ¡ ==*** 
= Mes 

MSTr 
-— MSE 


(9.17) 


Cuando A, es verdadera, el numerador y el denominador de F son, en promedio, del mismo 
tamaño, por lo que F tiende a estar cerca de 1. En efecto, cuando A, verdadera, su estadístico 
de prueba tiene una distribución F con / — 1 y N — [ grados de libertad, que se denota por 
F;- 1 y - 7 Cuando H, es falsa, la MSTr tiende a ser mayor, pero la MSE no, por lo que F tien- 
de ser mayor que 1. 
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La prueba F para el ANOVA de un sentido 
Para probar H, : 1, =*** = py contra H, : dos o más de las uu, son diferentes: 


I IT 
1. Calcule SSTr= Y J(X, —X 2 = Y J,X,? — NX... 
i=1 


i=1 


15, IS, I 
2, Calcule SSE= YY (Xy X= Y 13 - Y 4 X. 
¡=1 


j=l ¡=1 j=1 ¡=1 


IT 
e NU — 1)s?. 
i=1 


T E 
3. Calcule MSTr= > y Mina 00, 
MSTr 
MSE 


5. Encuentre el P-valor consultando la tabla F' (tabla A.7 en el Apéndice A) con I — 1 
y N — I grados de libertad. 


4. Calcule el estadístico de prueba: F = 


Ahora se aplica el método de análisis de varianza al ejemplo con el que se introdujo es- 
ta sección. 


Para los datos en la tabla 9.1, calcule la MSTr, la MSE y F. Determine el P-valor para probar 
la hipótesis nula de que todas las medias son iguales. ¿Qué concluye? 


Solución 
Del ejemplo 9.2, SSTr = 743.4 y SSE = 1 023.6. Se tienen [ = 4 muestras y N = 20 obser- 
vaciones en todas las muestras tomadas en conjunto. Utilizando la ecuación (9.13), 


MSTr = ci = 247.8 MSE = pt = 63.975 
4-1 204 
El valor del estadístico de prueba F es, por tanto, 
F= o = 3.8734 
63.975 


Para encontrar el P-valor se consulta la tabla F (tabla A.7). Los grados de libertad son 4 — 1 
= 3 para el numerador y 20 — 4 = 16 para el denominador. Bajo Hp, F tiene una distribución 
F;, 16- Observando la tabla F' debajo de 3 y 16 grados de libertad, se encuentra que el punto 
superior al 5% es 3.24, y que el punto superior al 1% es 5.29. Por tanto, el P-valor se encuen- 
tra entre 0.01 y 0.05 (véase la figura 9.3; un paquete de software da un valor exacto de 0.029 
con dos dígitos significativos). Es razonable concluir que las medias poblacionales no son to- 
das iguales, y, por consiguiente, la composición del flujo afecta la dureza. 


E jemplo 
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5% 


0 3.24 3.87 5.29 


FIGURA 9.3 El valor observado del estadístico de prueba es 3.87. El punto superior al 5% 
de la distribución F; ¡¿ es 3.24. El punto superior al 1% de la distribución F, ¡¿ es 5.29. 
Por tanto, el P-valor se encuentra entre 0.01 y 0.05. Un paquete de software da un valor de 
0.029. 


Intervalos de confianza para medias de tratamiento 


Las observaciones sobre el ¡-ésimo tratamiento se supone que son una muestra aleatoria sim- 
ple de una población normal con media ¡, y varianza 0”. Para construir un intervalo de con- 
fianza para 1, el primer paso es estimar la varianza poblacional a”. Una manera de hacer esto 
último sería utilizar la varianza muestral side las observaciones en el ¡-ésimo tratamiento. Sin 
embargo, debido a que se supone que todas las observaciones para todos los tratamientos tie- 
nen la misma varianza, es mejor combinar todas las variancias muestrales en una estimación 
“combinada”. Con este propósito, observe que la SSE es una suma ponderada de las varian- 
cias muestrales (ecuación 9.9) y la MSE es el promedio ponderado (ecuación 9.13). Por tan- 
to, la cantidad MSE es la estimación combinada de la varianza o”. Puesto que X, es la media 
muestral de /, observaciones, la varianza de X, es al, estimada con MSE/J;. El número de 
grados de libertad para la MSE es N — /. La cantidad 


Xi — Mi 
/MSE7/T, 


tiene una distribución £ de Student con N — / grados de libertad. Por tanto, se puede construir 
un intervalo de confianza para 1, con el método descrito en la sección 5.3. 


Un intervalo de confianza de nivel 100(1 — Q) para q, está dado por 


7 MSE 
Xp, SE ÚNi=L aja En (9.18) 


Determine un intervalo de confianza del 95% para la media de la dureza de soldaduras pro- 
ducidas con el flujo A. 


Solución 

De la tabla 9.1, X, = 253.8. El valor de la MSE se calculó en el ejemplo 9.3 de 63.975. Hay 
I = 4 tratamientos, J, = 5 observaciones para el flujo A, y N = 20 observaciones en conjun- 
to. De la tabla £ de Student se obtiene f]6, 025 = 2.120. Por tanto, el intervalo de confianza del 
95% es 
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/63.97 
253.8 + 2.1201 o 2 = 253.8 + 7.6 


La tabla ANOVA 


Los resultados de un análisis de varianza generalmente se resumen en una tabla de análisis de 
varianza (ANOVA). Esta tabla es muy parecida a la que se obtiene en la regresión múltiple. 
El siguiente resultado de MINITAB muestra el análisis de varianza para los datos de soldadu- 
ras que se presentan en la tabla 9.1. 


One-way ANOVA: A, B, C, D 


Source DF SS MS F Pp 
Factor 3 743.40 247.800 3.87 0.029 
Error 16 1023.60 63.975 

Total 19 1767.00 


S=7.998 R-Sq = 42.07% R-Sqladj) = 31.21% 


Individual 95% Cls For Mean Based on 
Pooled StDev 


Level N Mean. ¡StDey: "=== tss===25 prats iS ases 
A A Ras ) 
B 5 263.20 5.40 [zan AREA ROS ) 
Cc 5 271.00 8.72 (anos q ) 
D 5 262.00 7.45 (áesasen ARES ) 
Ln qenono-- Peon Hen heno. 
250 260 270 280 


Pooled StDev = 8.00 


En la tabla ANOVA, la columna “DF” presenta el número de grados de libertad tanto 
para el tratamiento (“Factor”) como para la suma de los cuadrados del error (“Error”). La co- 
lumna “SS” presenta la SSTr (en el renglón “Factor”) y la SSE (en el renglón “Error”). El ren- 
glón “Total” contiene la suma total de los cuadrados, que es la suma de SSTr y SSE. La 
columna “MS” presenta las medias cuadráticas MSTr y MSE. La columna “F” presenta el es- 
tadístico F para probar la hipótesis nula de que todas las medias poblacionales son iguales. 
Por último, la columna “P” representa el P-valor para la prueba F. Debajo de la tabla ANO- 
VA, el valor “S” es la estimación combinada de la desviación estándar del error cd”, que se cal- 
cula al tomar la raíz cuadrada de la MSE. La cantidad “R-sq” es R?, el coeficiente de 
determinación, que es igual al cociente SSTr/T'SS. Esto es análogo al caso de la regresión 
múltiple (véase la ecuación 8.9 de la sección 8.1). El valor “R-Sq(adj)” es el Re ajustado, igual 
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aR? [1 = DW = DJA r? ), nuevamente análogo a la regresión múltiple. Las cantida- 
des R? y Re ajustadas no son muy utilizadas en el análisis de varianza como en la regresión 
múltiple. Por último, se presentan las medias muestrales y las desviaciones estándar para ca- 
da grupo de tratamiento, junto con una gráfica que muestra un intervalo de confianza del 95% 
para cada media de tratamiento. 


En el artículo “Review of Development and Application of CRSTER and MPTER Models” 
(R. Wilson, Atmospheric Environment, 1993:41-57) se presentan varias mediciones de las 
concentraciones máximas por hora (en g/m*) de SO, para cada una de las cuatro plantas de 
energía. Los resultados son los siguientes (se han eliminados dos datos atípicos): 


Planta 1: 438 619 732 638 

Planta 2: 857 1014 1153 883 1053 
Planta 3: 925 786 1179 786 

Planta 4: 893 891 917 695 675 595 


El siguiente resultado de MINITAB presenta resultados para un ANOVA de un sentido. ¿Pue- 
de concluir que las máximas concentraciones por hora difieren entre las plantas? 


One-way ANOVA: Plant 1, Plant 2, Plant 3, Plant 4 


Source DF SS MS B Pp 
Plant 3 378610 126203 6.21 0.006 
Error 15 304838 20323 

Total 18 683449 


S = 142.6 R-Sq = 55.40% R-Sqladj) = 46.48% 


Individual 95% Cls For Mean Based on 
Pooled StDev 


Level N Mean StDev  -=-==-=--- Ho --- Peon Ho. dz 
1 4 606.8 122.9 (------ do ) 
2 5 992.0 122.7 ¡E Sta ) 
3 4 919.0 185.3 (ent Ha scaie ) 
4 6 177.7 138.8 (escss sata ) 
AI PARES Eooooooo-- doo +-- 
600 800 1000 1200 


Pooled StDev = 142.6 
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Solución 
En la tabla ANOVA el P-valor para la hipótesis nula es que todas las medias de tratamiento 
son iguales a 0.006. Por tanto, se concluye que no todas las medias de tratamiento son iguales. 


Comprobación de supuestos 


Como se mencionó antes, los métodos de análisis de varianza requieren los supuestos que las 
observaciones sobre cada tratamiento sean una muestra proveniente de una población normal 
y que todas las poblaciones normales tengan la misma varianza. Una buena manera de com- 
probar el supuesto de normalidad es con una gráfica de probabilidad normal. Si los tamaños 
muestrales son suficientemente grandes, se puede construir una gráfica distinta de probabili- 
dad para cada muestra. Este caso rara vez se presenta en la práctica. Cuando los tamaños de 
muestra no son lo suficientemente grandes para que las gráficas individuales de probabilidad 
proporcionen información, los residuos X;; — X;, pueden graficarse todos en una sola gráfica. 
Cuando se satisfacen los supuestos de normalidad y de varianza constante, estos residuos es- 
tarán distribuidos normalmente con media cero y se deberán graficar aproximadamente en 
una línea recta. La figura 9.4 presenta una gráfica de probabilidad normal de los residuos pa- 
ra los datos de soldaduras de la tabla 9.1. No hay evidencias de una violación grave del su- 
puesto de normalidad. 
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FIGURA 9.4 Gráfica de probabilidad para los residuos de los datos de soldadura. No hay 
evidencias de una violación grave del supuesto de normalidad. 


El supuesto de variancias iguales puede ser difícil de comprobar, porque con sólo algu- 
nas pocas observaciones en cada muestra, las desviaciones estándar muestrales pueden ser 
muy diferentes (por un factor de 2 o más) incluso cuando vale el supuesto. Para los datos de 
las soldaduras, las desviaciones estándar muestrales varían de 5.4037 a 9.7570. Es razonable 
proseguir como si las variancias fueran iguales. 

Las dispersiones de las observaciones dentro de varias muestras se pueden comprobar 
visualmente haciendo una gráfica de residuos. Esto último se hace al realizar la gráfica de re- 
siduos X¡; — X, contra los valores ajustados, que son las medias muestrales X;. Si las disper- 
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siones difieren considerablemente entre las muestras, el supuesto de variancias iguales es sos- 
pechoso. Si una o más de las muestras contienen datos atípicos, el supuesto de normalidad 
también es dudoso. La figura 9.5 presenta una gráfica de residuos para los datos de soldadu- 
ra. No hay datos atípicos graves, y las dispersiones no son muy diferentes entre las muestras. 
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Valor ajustado 


FIGURA 9.5 Gráfica de residuos de los valores X¡; — X, contra X, para los datos de sol- 
daduras. Las dispersiones no son muy diferentes de muestra a muestra, y no hay ningún 
dato atípico grave. 


Diseños balanceados contra no balanceados 


Cuando se asignan números iguales de unidades a cada tratamiento, se dice que el diseño es- 
tá balanceado. Aunque el análisis de varianza de un sentido se puede utilizar tanto con dise- 
ños balanceados como no balanceados, los primeros brindan una gran ventaja. Un diseño 
balanceado es mucho menos sensible a las violaciones del supuesto de la igualdad de la va- 
rianza que uno no balanceado. Debido a que las desviaciones moderadas de este supuesto 
pueden ser difíciles de detectar, es mejor utilizar un diseño balanceado siempre que sea posi- 
ble, para que las violaciones no detectadas del supuesto no comprometan gravemente la vali- 
dez de los resultados. Cuando es imposible obtener un diseño balanceado, es preferible un 
diseño ligeramente desbalanceado a uno gravemente desbalanceado. 


E Con un diseño balanceado el efecto de las variancias desiguales generalmente no 
es grande. 

E Con un diseño desbalanceado el efecto de las variancias desiguales puede ser im- 
portante. 

mM Entre más desbalanceado sea el diseño, mayor será el efecto de las variancias desi- 
guales. 
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La identidad del análisis de la varianza 


Tanto en la regresión lineal como en el análisis de varianza, una cantidad que se llama la su- 
ma total de los cuadrados se obtiene al restar la gran media muestral de cada observación, ele- 
vando al cuadrado estas desviaciones, y después sumándolas. Una identidad del análisis de 
varianza es una ecuación que expresa la suma total de cuadrados como una suma de las otras 
sumas de los cuadrados. Se han presentado identidades del análisis de varianza para la regre- 
sión lineal simple (al final de la sección 7.2) y para la regresión múltiple (ecuación 8.7 en la 
sección 8.1). 
La suma total de los cuadrados para el ANOVA en un sentido está dada por 


LJ, 
SST = E Y Ol =x (9.19) 
i=1 ¡=1 
Una fórmula equivalente está dada por 
I J; a 
ssT= Y Xx? -—NYX, (9.20) 
i=1 ¡=1 


Al examinar las ecuaciones (9.5), (9.7) y (9.20) se encuentra que la suma total de los cuadra- 
dos es igual a la suma de los cuadrados del tratamiento más la suma de los cuadrados del error. 
Esta es la identidad del análisis de varianza para el análisis de varianza de un sentido. 


La identidad del análisis de varianza 


SST = SSTr + SSE (9.21) 


Una parametrización alternativa 


La presentación del análisis de varianza de un sentido, como un método para comparar varias 
medias de tratamiento utilizando muestras aleatorias extraídas de cada población de trata- 
miento, es una manera natural de ver el tema. Existe otra manera de expresar estas mismas 
ideas, con una notación algo diferente, que a veces es útil. 

Para cada observación X;;, se define e¡; = X¡, — p;, la diferencia entre la observación y 
su media. Por analogía con la regresión lineal, las cantidades e;, se llaman errores. Es cierto 
que 

Xy = M¡ + 8j (9.22) 
Ahora, puesto que X;, está distribuido normalmente con media uu, y varianza a”, se tiene que 
e¡¡ está distribuido normalmente con media 0 y varianza ar, 

En un experimento de un solo factor se tiene interés en determinar si las medias de tra- 

tamiento son todas iguales. Dando las medias del tratamiento uy, . . . , y la cantidad 


1 il 
=>; Si (9.23) 


i=1 
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representa el promedio de todas las medias del tratamiento. La cantidad u se llama gran me- 
dia de la población. El ¡-ésimo efecto del tratamiento, que se denota por q%,, es la diferen- 
cia entre la media del ¡-ésimo tratamiento y la gran media de la población: 


0 =p p (9.24) 


que se obtiene a partir de la definición de a, en la cual e o =0. 
Ahora se pueden descomponer las medias del tratamiento de la siguiente manera: 


.=pw-0 (9.25) 


Combinando las ecuaciones (9.22) y (9.25) se obtiene el modelo del análisis de la varianza 
de un sentido: 


X= M4 04 + ej (9.26) 


La hipótesis nula H, : 4, =*** = mes equivalente a H,:01 =**: =0/=0. 

En el ANOVA de un sentido es posible trabajar con las medias de tratamiento 1, como 
se ha hecho, en lugar de con los efectos de tratamiento 0, Sin embargo, en los experimentos 
de múltiples factores las medias de tratamiento en sí mismas no son suficientes y se deben 
descomponer en una manera similar a la que se describió aquí. Lo anterior se analizará más 
profundamente en la sección 9.3. 


Potencia 


Cuando se diseña un experimento factorial es importante que la prueba F tenga buena poten- 
cia; es decir, gran probabilidad de rechazar la hipótesis nula de la igualdad si en efecto todas 
las medias de tratamiento no son iguales. Un experimento con potencia baja no es muy acon- 
sejable, ya que es improbable detectar una diferencia en los tratamientos, aun si existiera una. 
En lo que sigue, se supondrá que el experimento está balanceado y que los supuestos de nor- 
malidad y de igualdad de varianza valen. Suponga que el número de niveles se fija en /. 

La potencia de cualquier prueba primero depende del criterio de rechazo: entre mayor 
sea el nivel en el que se quiere rechazar, mayor es la potencia. El nivel de 5% es el que con 
más frecuencia se utiliza en la práctica. En cuanto se establece el nivel de rechazo, la potencia 
de la prueba F depende de tres cantidades: 1) la dispersión de las medias verdaderas se mide 
mediante la cantidad ) >, a? donde ox, es el efecto del ¡-ésimo tratamiento, 2) la desviación es- 
tándar del error a y 3) el tamaño muestral J. Observe que si la hipótesis nula es verdadera, en- 
tonces )>, a? = 0. Entre más grande es »>, a?, más se aleja de la verdadera hipótesis nula, y 
mayor es la potencia, que es la probabilidad de que la hipótesis nula se rechace. 

Un cálculo de potencia puede servir para cualquiera de dos propósitos: determinar el ta- 
maño muestral para cada tratamiento necesario con el fin de obtener una potencia deseada, o 
determinar qué potencia tiene con un tamaño de muestra dado. En un cálculo de potencia tra- 
dicional, se especifica la cantidad >>, a? con la que se desea detectar y el valor de dr que se 
espera encontrar. Entonces se puede calcular la potencia para un tamaño de muestra dado, o 
el tamaño de muestra necesario para obtener una potencia específica. En la práctica, rara vez 
se sabe cómo especificar un valor para >>, ar?, pero se puede con frecuencia especificar el ta- 
maño de una diferencia entre la mayor y la menor medias del tratamiento que se desea detec- 
tar. Por ejemplo, en el experimento de soldaduras, un metalúrgico es capaz de especificar que 
una diferencia de 10 o más entre la mayor y menor medias de tratamiento es científicamente 
importante, pero es improbable que haga lo mismo para >>, a. 
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En MINITAB se puede especificar el tamaño de una diferencia científicamente impor- 
tante entre las medias de tratamiento más grande y más pequeña y calcular el tamaño de 
muestra necesario para garantizar que la potencia para detectar la diferencia será al menos una 
cantidad específica. Se presenta un ejemplo. 


Un metalúrgico quiere repetir el experimento de soldaduras con cuatro flujos diferentes y 
quiere que el diseño sea bastante sensible para que sea probable detectar una diferencia de 10 
o más en la dureza de Brinell con un nivel de 5%. Supone que la desviación estándar del error 
tiene aproximadamente el mismo valor de 7.998 calculado en el experimento que se ha esta- 
do estudiando. El siguiente resultado de MINITAB muestra un cálculo de potencia para un 
experimento con cinco observaciones por tratamiento. ¿Cuál es la potencia? ¿Qué le reco- 
mendaría al metalúrgico con respecto a la utilidad de este experimento propuesto? 


One-way ANOVA 


Alpha = 0.05 Assumed standard deviation = 7.998 
Number of Levels = 4 


SS Sample Maximum 
Means Size Power Difference 
50 5 0.281722 10 


The sample size is for each level. 


Solución 

La potencia es 0.281772. Esto último significa que la probabilidad de que el experimento pro- 
puesto detectará una diferencia de 10 entre el mayor y el menor tratamientos no podría ser 
mayor a 0.28. La recomendación adecuada es no operar este experimento; tiene muy poca 
oportunidad de éxito. En su lugar, se debe calcular el tamaño de muestra necesario para pro- 
porcionar la potencia adecuada, y, si es factible, el tamaño que debe tener un experimento 
operado. 


El metalúrgico del ejemplo 9.6 ha tomado su consejo y ha calculado el tamaño de muestra ne- 
cesario para proporcionar una potencia de 0.90 y así detectar una diferencia de 10 con un ni- 
vel de 5%. En el siguiente resultado de MINITAB, ¿cuál es la potencia? ¿Cuántas 
observaciones serán necesarias en cada nivel? ¿Cuántas observaciones se necesitarán en total? 
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One-way ANOVA 


Alpha = 0.05 Assumed standard deviation = 7.998 
Number of Levels = 4 


SS Sample Target Maximum 
Means Size Power Actual Power Difference 
50 20 0.9 0.914048 10 


The sample size is for each level. 


Solución 

El tamaño muestral necesario es 20 por nivel; con cuatro niveles habrá 80 observaciones en 
total. Observe que la potencia verdadera del experimento es aproximadamente 0.914, mayor 
que la “potencia objetivo” de 0.90 que fue pedida. La razón para esto último es que la poten- 
cia proporcionada por un tamaño de muestra de 19 por nivel podía ser algo menor que 0.90; 
un tamaño de muestra de 20 es el más pequeño que garantiza que proporciona una potencia 
de 0.90 o más. 


Modelos de efectos aleatorios 


En muchos experimentos factoriales los tratamientos los elige deliberadamente el experimen- 
tador. Se dice que estos experimentos siguen un modelo de efectos fijos. En algunos casos, 
los tratamientos se eligen en forma aleatoria de una población de tratamientos posibles. En 
estos casos se dice que los experimentos siguen un modelo de efectos aleatorios. En un mo- 
delo de efectos fijos interesan los tratamientos específicos elegidos por el experimento. En un 
modelo de efectos aleatorios, interesa toda la población de tratamientos posibles, y no sólo 
los que se eligen para el experimento. 

El artículo que describe el experimento de soldaduras establece que los tratamientos 
fueron elegidos deliberadamente y no representa una muestra aleatoria proveniente de una po- 
blación mayor de compuestos de flujo. Por tanto, este experimento sigue un modelo de efectos 
fijos. Las cuatro centrales hidroeléctricas en el ejemplo 9.5 son una muestra de conveniencia; 
son plantas en las que las mediciones estaban fácilmente disponibles. En algunos casos es 
adecuado tratar una muestra de conveniencia como si hubiera una muestra aleatoria simple 
(véase el análisis en la sección 1.1). Si estas condiciones valen, entonces se puede considerar 
que el experimento de la central hidroeléctrica sigue un modelo de efectos aleatorios; de otra 
forma, se debe tratar como un modelo de efectos fijo. 

Hay una diferencia importante en la interpretación entre los resultados de un modelo de 
efectos fijos y la de un modelo de efectos aleatorios. En el primer modelo las únicas conclu- 
siones que se pueden obtener son acerca de los tratamientos empleados en realidad en el ex- 
perimento. Sin embargo, en un modelo de efectos aleatorios, debido a que los tratamientos 
son una muestra aleatoria simple de una población de tratamientos, se pueden obtener con- 
clusiones con respecto a toda la población, incluyendo los tratamientos que no incluyen en 
realidad en el experimento. 

Esta diferencia en las interpretaciones genera una diferencia en las hipótesis nulas que 
se prueban. En el modelo de efectos fijos la hipótesis nula de interés es H¿: M¡ =*** = My 
En el modelo de efectos aleatorios la hipótesis nula de interés es 

HA, : las medias del tratamiento son iguales para cada nivel en la población. 
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En el modelo de efectos aleatorios se hace el supuesto de que la población de las medias del 
tratamiento es normal. 

Curiosamente, aunque la hipótesis nula para el modelo de efectos aleatorios difiere de 
la del modelo de efectos fijo, la prueba de hipótesis es exactamente la misma. La prueba F 
descrita antes se aplica para el modelo de efectos aleatorios y también para el modelo de efec- 
tos fijos. 


En el ejemplo 9.5, suponga que es razonable tratar las cuatro centrales hidroeléctricas como 
una muestra aleatoria proveniente de una gran población de centrales hidroeléctricas; además, 
suponga que las concentraciones de SO, en la población de plantas están distribuidas normal- 
mente. ¿Se puede concluir que hay diferencias en las concentraciones de SO, entre las cen- 
trales hidroeléctricas en la población? 


Solución 

Éste es un modelo de efectos aleatorios, así que se puede aplicar la prueba F para probar la 
hipótesis nula de que todas las medias del tratamiento en la población son las mismas. Los re- 
sultados de la prueba F se muestran en el ejemplo 9.5. El P-valor es 0.006. Por tanto, se re- 
chaza la hipótesis nula y se concluye que hay diferencias en las medias de las concentraciones 
de SO, entre las centrales hidroeléctricas en la población. 


Deducciones de las ecuaciones (9.10) y (9.12) 
En lo que sigue será más fácil usar la notación E( ) para denotar la media de una canti- 
dad V( ) para denotar la varianza. Por lo que, por ejemplo, E(SSE) = ¿ussg, E(SSTr) = 
Hsstr» Y V(X;¡) denota la varianza de X;;. 

Se mostrará que E(SSE) = El) ;_¡ D)_(X;; — X,)?] =(N—Do?, si las medias 
de la población son o no iguales. Esta es la ecuación (9.12). 

Se inicia por sumar y restar la media de tratamiento 1, de cada término en 
ue 2 (X¡¡ — X;.)? para obtener 

RS: 
SSE=) Y [Xi — 14) = 0%, — 1) 
¡i=1 ¡=1 


Desarrollando se obtiene 


nd id e: 
SSE = SE NT = ui? — DOE AUX ¡ — MX, — Mi) + y > (X; — a 


i=1 ¡=1 ¡i=1 ¡=1 i=1 j¡=1 

(9.27) 

Ahora a ¡ (X¡; — ) = J¡(X; — 114). Sustituyéndolo en el término de en medio del la- 
do derecho de la ecuación (9.27) se obtiene 


E di II 4 
SSE= y No E ma El a SA, E E ar SN NES => py 
i=1 


=l al ¡=1 j¡=1 


id 1 
Puesto que a Nc = E = A IA = A esto simplifica a, 
j=il 


¡=1 ¡=1 
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I dh 1 
SSE = Y 0 1 DS — MY” (9.28) 


i=l ¡=1 dal 


Tomando medias en ambos lados de la ecuación (9.28) se obtiene 


A; 1 
+ 2 
E(SSE) =D) Y E(X — 1) NEL, — 145) (9.29) 
i=1 ¡=1 ¡=1 
Ahora E(X¡) = E(X.) = 1, Todas las variancias de la población son iguales; se denota su 
valor común por 0”. De lo que se tiene que 


E(X¡¡ — Y? = V(X;¡) = 0? 
EX, —u)=VX)=+> 


Sustituyendo en la ecuación (9.29) se obtiene 


l 


J; Ji 
E(SSE) = 7 ae e > EA = No? — lo? =(N — Do? 


i=1 j=1 ¡=1 dl 
Lo anterior termina la deducción de E(SSE). 

Ahora se muestra que E(SSTr) = EL /_, J¡(X, — X.)?] = (1 — Do? bajo el su- 
puesto de que las medias del tratamiento son todas iguales a un valor común denotado por 
11. Esto es la ecuación (9.10). 

Se inicia por sumar y restar la media común del tratamiento UU de cada término en 
a J(X; — Xy? para obtener 

1 
SSTr = Y SLX; — 1) — (X, — wP 


dal 


Desarrollando, se obtiene 


I I I 
SSTr= DR 2 RR. 04 IA, Y (9.30) 


¡=1 ¡=1 i=1 


Ahora E Lx 
e y y 
por lo que 
= Cta, = 
Xx aL ( S 1) 
y 


I 
JA. — 1) = NX. — pu) 
Ú=il 
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Sustituyendo en el término de en medio del lado derecho de (9.30), se obtiene 


I I 
SST! = 1%, 0) NL, — 1 + O, 


¡=1 al 


1 
Puesto que y J;¡ = N, se obtiene 


¿=Il 


I 
SSTr= Xi, — 1) — NX, — Y 


¡=1 
Tomando medias en ambos lados se obtiene 
- = 2 = 2 
E(SST) =)) EX, — Y — NE(X, — u) (9.31) 
¡=1 


Ahora E(X,) = E(X ) = y, por lo que 


En 2 = o? 
EX, = 1) = VO) = 7 
E a A 

A ES 


Sustituyendo en (9.31) se obtiene 


I 2 2 
J N 
E(SSTr) = ) — = = (1-10? 


¿=il 


Ejercicios para la sección 9.1 


1. Uno de los factores que determina el grado del riesgo que un pesticida plantea a la salud humana es la tasa con la que lo ab- 
sorbe la piel después del contacto. Una pregunta importante es si la cantidad en la piel aumenta con la duración del contacto, 
o si sólo aumenta durante un tiempo corto antes de estabilizarse. Para investigar esto último se aplicaron cantidades medidas 
de cierto pesticida a 20 muestras de piel de rata. Se analizaron cuatro pieles en cada uno de los intervalos de 1, 2, 4, 10 y 24 
horas. Las cantidades de compuestos químicos (en Ug) que estaban en la piel están dadas en la tabla siguiente. 


Duración Cantidades absorbidas 


1,7 1.5 1.2 15 
1.8 1.6 1.8 1.9 
1:9 1.1 2,1 20 
2.3 1.9 1.7 1,5 
2,1 2.2.2.3 2,3 


Lopsn» 


RR 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la cantidad en la piel varía con el tiempo? 
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2. La fuerza producida de soldaduras de titanio CP se midió para soldaduras enfriadas en tasas de 10%C/s, 15%C/s y 28*C/s. Los 
resultados se presentan en la tabla siguiente. (Basada en el artículo “Advances in Oxygen Equivalence Equations for Predicting 
the Properties of Titanium Welds” D. Harwig, W. Ittiwattana, y H. Castner, en The Welding Journal, 2001:126s-136s.) 


Razón de 
enfriamiento Producción de la fuerza 
10 71.00 75.00 79.67 81.00 75.50 72.50 73.50 78.50 78.50 
15 63.00 68.00 73.00 76.00 79.67 81.00 
28 68.65 73.70 78.40 84.40 91.20 87.15 77.20 80.70 84.85 88.40 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la producción de la fuerza de soldaduras de titanio CP varía con la tasa de enfriamiento? 


3. La eliminación de nitrógeno de amoniaco es un aspecto importante del tratamiento de filtraciones en basureros. Durante varios 
días se registró la tasa de eliminación (en % por día) para cada uno de los diferentes métodos de tratamiento. Los resultados se 
presentan en la tabla siguiente. (Basado en el artículo “Removal of Ammoniacal Nitrogen from Landfill Leachate by Irrigation 
onto Vegetated Treatment Planes”, S. Tyrrel, P. Leeds-Harrison y K. Harrison, en Water Research, 2002:291-299.) 


Tratamiento Tasa de eliminación 


A 5.21 4.65 

B 5.59 2.69 7.57 5.16 
¡0 6.24 5.94 6.41 

D 6.85 9.18 4.94 

E 4.04 3.29 4,52 3.75 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que los métodos de tratamiento difieren en sus tasas de eliminación? 


4. En el artículo “Calibration of an FTIR Spectrometer” (P. Pankratz, Statistical Case Studies for Industrial and Process Impro- 
vement, SIAM-ASA, 1997:19-38) se usa un espectrómetro para hacer cinco mediciones del contenido de carbono (en ppmm) 
de cierta placa de silicio en cuatro días consecutivos. Los resultados son: 


Día 1: 358 390 380 372 366 
Día 2: 373 376 413 367 368 
Día 3: 336 360 370 368 352 
Día 4: 368 359 351 349 343 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la calibración del espectrómetro es diferente entre los cuatro días? 


5. El artículo “Quality of the Fire Clay Coal Bed, Southeastern Kentucky” (J. Hower, W. Andrews y cols., en Journal of Coal Qua- 
lity, 1994:13-26)) contiene mediciones de muestras de carbón de varios lugares en Kentucky. Los datos en porcentaje de ceni- 
za de TiO, son los siguientes (se ha eliminado un dato atípico): 


Buckeye Hollow: 0.96 0.86 0.94 0.91 0.70 1.28 1.19 1.04 1.42 0.82 0.89 1.45 1.66 1.68 


2.10 2.19 
Bear Branch: 0.91 1.42 2.54 2.23 2.20 1.44 1.70 1.53 1.84 
Defeated Creek: 1.30 1.39 2.58 1.49 1.49 2.07 1.87 1.339 1.02 0.91 0.82 0.67 1.34 1.51 
Turkey Creek: 1.20 1.60 1.32 1.224 1.008 2.33 1.81 1.76 1.25 0.81 0.95 1.92 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que hay diferencias en contenido de TiO; entre estos lugares? 
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6. Los arqueólogos pueden determinar las dietas de las antiguas civilizaciones midiendo el cociente de carbono 13 entre carbono 
12 en huesos encontrados en sitios de entierro. Las grandes cantidades de carbono 13 sugieren una dieta rica en hierbas como 
maíz, mientras que las cantidades pequeñas sugieren una dieta basada de plantas herbáceas. El artículo “Climate and Diet in 
Fremont Prehistory: Economic Variability and Abandonment of Maize Agriculture in the Great Salt Lake Basin” (J. Coltrain y 
S. Leavitt, en American Antiquity, 2002:453-485) informa cocientes, como una diferencia de un patrón en unidades de partes 
por mil, para huesos de personas en varios grupos de edades. Los datos se presentan en la tabla siguiente. 


Grupo de edades (años) Cociente 
0-11 17.2 18.4 17.9 16.6 19.0 18.3 13.6 13.5 18.5 19.1 19.1 13.4 
12-24 14.8 17.6 18.3 17.2 10.0 11.3 10.2 17.0 18.9 19.2 
25-45 18.4 13.0 14.8 18.4 12.8 17.6 18.8 17.9 18.5 17.5 18.3 15.2 10.8 19.8 17.3 
19.2 15.4 13.2 
46+ 15.5 18.2 12.7 15.1 18.2 18.0 14.4 10.2 16.7 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que los coeficientes de concentración son diferentes entre los grupos de edades? 


7. Un experimento se realizó para medir la producción proporcionada por cada uno de tres catalizadores en cierta reacción. El ex- 
perimento se repitió tres veces para cada catalizador. Las producciones del reactor, en gramos, son: 


Catalizador 1: 84.33 90.25 85.62 
Catalizador 2: 88.44 89.81 86.53 
Catalizador 3: 94.71 91.19 92.81 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que hay diferencias en las medias de las producciones entre los catalizadores? 


8. Se llevó a cabo un experimento para comparar las vidas de cuatro marcas diferentes de bujía de encendido. Se usaron cinco bu- 
jJías de cada marca y se registró el número de millas hasta que fallaba cada una. Lo siguiente es una parte del resultado MINI- 
TAB para un ANOVA de un sentido. 


One-way Analysis of Variance 


Analysis of Variance 


Source DF SS MS F Pp 
Brand 3 176.482 (a) (e) (f) 
Error (b) (c) (d) 

Total 19 235.958 


Complete los números faltantes del a) al f) en la tabla. Puede dar un rango para el P-valor. 
9. En relación con el ejercicio 8, ¿es creíble que las marcas de bujía de encendido tengan la misma media de tiempos de vida? 


10. Se compararon tres métodos de separación en cierto proceso químico para estudiar sus efectos sobre la producción. Se hicie- 
ron tres operaciones con cada método, y las producciones, en porcentaje de un máximo teórico, son los siguientes: 


Método A: 84.6 83.3 85.1 

Método B: 87.3 85.9 88.2 

Método C: 87.2 86.0 86.3 
a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que hay diferencias entre las medias de las producciones? 


11. 


12. 


13. 


14. 


15. 
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Se realizó un experimento para determinar si la temperatura de recocido de hierro dúctil afecta su fuerza de tensión. Se reco- 
cieron cinco elementos para cada una de las cuatro temperaturas. Se midió la fuerza de tensión (en ksi) para cada una. Los re- 
sultados se presentan en la tabla siguiente. 


Temperatura (*C) Valores muestrales 
750 19.72 20.88 19.63 18.68 17.89 
800 16.01 20.04 18.10 20.28 20.53 
850 16.66 17.38 14.49 18.21 15.58 
900 16.93 14.49 16.15 15.53 13.25 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que hay diferencias entre las medias de las fuerzas de tensión? 


Considere el ejercicio 10. 


a) Calcule la cantidad s = yMSE, la estimación de la desviación estándar del error d-. 


b) Suponiendo que s sea la desviación estándar del error, encuentre el tamaño de muestra necesario en cada tratamiento para 
proporcionar una potencia de 0.90 y detectar una diferencia máxima de 2 en las medias de tratamiento a un nivel del 5%. 


c) Utilizando una estimación más conservadora de 1.55 como la desviación estándar de error, encuentre el tamaño muestral 


necesario en cada tratamiento para proporcionar una potencia de 0.90 para detectar una diferencia máxima de 2 en las me- 
dias de tratamiento con un nivel de 5%. 


Considérese el ejercicio 11. 


a) Calcule la cantidad s = yMSE, la estimación de la desviación estándar de error dí. 


b) Suponiendo que s sea la desviación estándar de error, determine el tamaño de muestra necesario en cada tratamiento para 
proporcionar una potencia de 0.90 y detectar una diferencia máxima de 2 en las medias del tratamiento con un nivel de 5% 


c) Utilizando una estimación más conservadora de 1.55 como la desviación estándar del error, determine el tamaño de mues- 
tra necesario en cada tratamiento para proporcionar una potencia de 0.90 y detectar una diferencia máxima de 2 en las me- 
dias de tratamiento con un nivel de 5%. 


El artículo “The Lubrication of Metal-on-Metal Total Hip Joints: A Slide Down the Stribeck Curve k” (S. Smith, D. Dowson, 
y A. Goldsmith, en Proceedings of the Institution of Mechanical Engineers, 2001:483-493) presenta los resultados de pruebas 
de desgaste hechas en uniones artificiales de cadera de metal. Se probaron uniones con diferentes diámetros. Los datos que se 
presentan en la tabla siguiente para la rugosidad de la cabeza son consistentes con las medias y las desviaciones estándar des- 
critas en el artículo. 


Rugosidad de la cabeza 


Diámetro (mm) (nm) 
16 0.83 2.25 0.20 2.78 3.93 
28 2.72 2.48 3.80 
36 5.99 5.32 4.59 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la media de la rugosidad varía con el diámetro? Explique. 


El artículo “Mechanical Grading of Oak Timbers” (D. Kretschmann y D. Green, en Journal of Materials in Civil Engineering, 
1999:91-97) presenta mediciones de los módulos de ruptura, en MPa, para maderas de 7 por 9 de roble mezclados verdes de 
Virginia occidental y Pensilvania. Las medias, desviaciones estándar y tamaños muestrales para cuatro diferentes grados de ma- 
dera se presentan en la tabla siguiente. 
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Grado Media Desviación estándar Tamaño muestral 
Selecta 45.1 8.52 32 
Núm. 1 42.0 5.50 11 
Núm. 2 33.2 6.71 15 
Grado bajo 38.1 8.04 42 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la media de los módulos de ruptura difieren para los diferentes grados de madera? 


16. El artículo “Withdrawal Strength of Threaded Nails” (D. Rammer, S. Winistorfer y D. Sender, en Journal of Structural Engi- 
neering 2001:442-449) describe un experimento para comparar las fuerzas de retirada para algunos tipos de clavos. Los datos 
contenidos en la tabla siguiente son consistentes con las medias y las desviaciones estándar que se describen en el artículo pa- 
ra tres tipos de clavos: con estrías anulares, con estrías en espiral y comunes. Todos los clavos tenían diámetros a 0.1 mm del 
otro, y todos fueron hechos con el mismo tipo de madera. 


Tipo de clavo Fuerza de retirada (N/mm) 


Con estrías anulares 36.57 29.67 43.38 26.94 12.03 21.66 41.79 31.50 35.84 40.81 
Con estrías en espiral 14.66 24.22 23.83 21.80 27.22 38.25 28.15 36.35 23.89 28.44 
Común 12.61 25.71 17.69 24.69 26.48 19.35 28.60 42.17 25.11 19.98 


a) Construya una tabla ANOVA. Puede dar un rango para el P-valor. 


b) ¿Puede concluir que la media de la fuerza de retirada es diferente para los diferentes tipos de clavo? 


17. El siguiente resultado de MINITAB presenta un cálculo de potencia. 


Alpha = 0.05 Assumed standard deviation = 142.6 Number of Levels = 4 


Sample Target Maximum 
SS Means Size Power Actual Power Difference 
20000 14 0.85 0.864138 200 


The sample size is for each level. 


a) ¿Cuál es la potencia que requiere el experimentador? 
b) Para garantizar una potencia de 0.864138, ¿cuántas observaciones se deben tomar para todos los tratamientos combinados? 
Cc) ¿Cuál es la diferencia entre las medias del tratamiento que puedan detectarse con una potencia de al menos 0.864138? 


d) ¿La potencia para detectar es una diferencia máxima de 250 mayor que 0.864138 o menor que 0.864138? Explique. 


9.2 Comparaciones apareadas en los experimentos 
de un solo factor 


En un ANOVA de un sentido se utiliza una prueba F para probar la hipótesis nula de que todas 
las medias de tratamiento son iguales. Si ésta es rechazada se puede concluir que las medias de 
tratamiento no son todas iguales. Pero esta prueba no indica cuáles son diferentes del resto. A 
veces un experimentador considera dos tratamientos específicos, i y j, y quiere estudiar la dife- 
rencia 4; — py. En este caso el método de la diferencia significativa mínima de Fisher (DSM) 
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es adecuado y puede usarse para construir intervalos de confianza para 4; — pu; O para probar la 
hipótesis nula que uu; — pu; = O. Otras veces, un experimentador tal vez desee determinar todos 
los pares de medias que se pueda concluir que difieren de otro. En este caso se debe utilizar otro 
tipo de procedimiento que se llama método de comparaciones múltiples. Se analizarán dos 
métodos de comparaciones múltiples, el de Bonferroni y el de Tukey-Kramer. 


El método de la diferencia significativa mínima de Fisher 


Se inicia mediante la decripción del método DSM de Fisher para construir intervalos de con- 
fianza de Fisher. El intervalo de confianza para la diferencia 4, — pu, se centra en la diferencia 
de las medias muestrales X; — X;. Determinar qué tan ancho hacer el intervalo de confianza 
requiere calcular la desviación estándar de X, — X;. Sean J; y J; los tamaños de muestra en 
los niveles ¡ y j, respectivamente. Debido al supuesto de que todas las observaciones están dis- 
tribuidas normalmente con varianza 07, por lo que X, — X ¡ está distribuido normalmente con 
media 1, — py y varianza (11, + 1/J;). La varianza 0” se estima con MSE, para las razo- 
nes que se explicaron previamente en el análisis de los intervalos de confianza para las me- 
dias de tratamiento (sección 9.1). Ahora la cantidad 


(Xi — X 5) — (pi — 15) 
Y MSE(1/3; + 1/3) 


tiene una distribución £ de Student con N — / grados de libertad. (El valor N — 7 es el núme- 
ro de grados de libertad usado para calcular MSE; véase la ecuación 9.13.) La cantidad 
ÍN—1, 0/2 v MSE(1/J;¡ + 1/J;) :se llama diferencia significativa mínima. Esta última constitu- 
ye la base para los intervalos de confianza y las pruebas de hipótesis. 


Método de Fisher de la diferencia significativa mínima para intervalos 

de confianza y pruebas de hipótesis 

El intervalo de confianza de la diferencia significativa mínima de Fisher, al nivel 
1001 — a)%, para la diferencia 4, — pu, es 


ms 1 1 
X;¡ — Xj. E ÍN-—I 0/2 MSE (5 =F 7) (9.32) 
i j 


Para probar la hipótesis nula Ay : q; — pu; = 0, el estadístico de prueba es 
x= M6 


1 1 
puse (5 + 7) (9.33) 


Si A, es verdadera, este estadístico tiene una distribución £ Student con N — / grados 
de libertad. Específicamente, si 


= ps il 1 
[X;. =X 5.1 > tn=1,0/24/MSE | — + — (9.34) 
de de 


Entonces Ay es rechazada al nivel dx. 
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La razón de que la cantidad ty_1 ay /MSE(/J; + 1/35) se llame la diferencia signi- 
ficativa mínima es que la hipótesis nula de las medias iguales se rechazó con un nivel de Q 
siempre que la diferencia en las medias muestrales |X, — Xx ¡| supere este valor. Cuando el 
diseño es balanceado, con todos los tamaños muestral iguales a J, la diferencia significativa 
mínima es igual a ty_1 q V/2MSE/J para todos los pares de medias. 


En el experimento de las soldaduras analizado en la sección 9.1 se midió la dureza para cin- 
co soldaduras de cada uno de cuatro flujos A, B, C, y D. La media muestral de los valores de 
la dureza fueron X, = 253.8, Xy = 263.2, X = 271.0 y X, = 262.0. La tabla ANOVA se 
muestra en el siguiente cuadro. 


One-way ANOVA: A, B, C, D 


Source DF SS MS F Pp 
Factor 3 743.40 247.800 3.87 0.029 
Error 16 1023.60 63.975 

Total 19 1767.00 

S = 7,998 R=-Sq = 42.07% R-Sqladj) = 31.21% 


Antes de realizar el experimento se midieron los contenidos de carbono de los flujos. 
El flujo B tenía el contenido de carbono más bajo (2.67% por peso), y el flujo C tenía el más 
alto (5.05% por peso). Por tanto, el experimentador está particularmente interesado en com- 
parar las durezas obtenidas con estos dos flujos. Determine un intervalo de confianza del 95% 
para la diferencia de las medias de durezas entre soldaduras producidas con los flujos B y C. 
¿Se puede concluir que las dos medias son diferentes? 


Solución 
Se utiliza la expresión (9.32). Las medias muestrales son 271.0 y 263.2 para los flujos C y B, 
respectivamente. El producto anterior de MINITAB da la cantidad MSE de 63.975. (Este va- 
lor también se calculó en el ejemplo 9.3 en la sección 9.1.) Ambos tamaños muestrales son 
iguales a 5. Hay / = 4 niveles y N = 20 observaciones en total. Para un intervalo de confian- 
za de 95% se consulta la tabla £ para determinar el valor f;; 9,5 = 2.120. Por tanto, el inter- 
valo de confianza de 95% es 271.0 — 263.2 +2.120./63.975(1/5 + 1/5) o (—2.92, 18.52). 
Para realizar una prueba de hipótesis nula con el fin de que las dos medias de tratamien- 
to sean iguales, se calcula el valor del estadístico de prueba (expresión 9.33) y se obtiene 


271.0 263.2. 
VOBITA1/5 + 1/5) 


Al consultar la tabla £ con N — [ = 16 grados de libertad, se encuentra que P está entre 2(0.05) 
= 0.10 y 2(0.10) = 0.20 (observe que ésta es una prueba de dos colas). No se puede concluir 
que las medias del tratamiento difieren. 
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Si se desea realizar una prueba de nivel fijo a un nivel q = 0.05 como una alternativa 
para calcular el P-valor, el valor crítico f es t,6, 925 = 2.120. El lado izquierdo de la desigual- 
dad (9.34) es |271.0 — 263.2| = 7.8. El lado derecho es 2.120./63.975(1/5+ 1/5) = 10.72. 
Dado que 7.8 no es mayor que 10.72, no se rechaza A, al nivel 5%. 


El siguiente resultado de MINITAB presenta los intervalos de confianza al 95% de Fisher 
de DSM para cada diferencia entre las medias de tratamiento en el experimento de soldaduras. 


Fisher 95% Individual Confidence Intervals 
AI Pairwise Comparisons 


Simultaneous confidence level = 81.11% 


A subtracted from: 


Lower Center Upper =====- ses denon denon. +--- 
B -1.324 9.400 20.124 ASA AOS ) 
C 6.476 17.200 27.924 (Pass OS ) 
D -2.524 8.200 18.924 (59.2 RS ) 
A EN 
=12 0 12 24 


B subtracted from: 


Lower Center Upper =====- E E pass 
€ -2.924 7.800 18.524 (asneóss A: 
D -11.924 -1.200 9.524 (es ases ER SEO ) 
O. A 
-12 0 12 24 


C subtracted from: 


Lower Center. Upper. ===" Pastas iqees pepe dee sae oo kiss 
D- -=19,724 9,000. L,/24 (==..--.=* ===> ) 


Los valores “Center” son las diferencias entre pares de medias de tratamiento. Las can- 
tidades “Lower” y “Upper” son los límites superior e inferior, respectivamente, del intervalo 
de confianza. De particular interés es el nivel de confianza simultáneo de 81.11%. Esto últi- 
mo indica que aunque se tiene una confianza de 95% de que cualquier intervalo de confianza 
dado contiene su diferencia verdadera en las medias, sólo se tiene una confianza de 81.11% 
de que todos los intervalos de confianza contienen sus diferencias verdaderas. 

En el ejemplo 9.9 se realizó una sola prueba sobre la diferencia entre dos medias espe- 
cíficas. ¿Qué sucede si se quería probar cada par de medias para averiguar acerca de cuáles 
se puede concluir que son diferentes? Podría parecer razonable realizar la prueba DSM sobre 
cada par. Sin embargo, esto último no es adecuado porque cuando se realizan varias pruebas 
aumenta la probabilidad de rechazar una hipótesis nula verdadera. Éste es problema de prue- 
bas múltiples, que se analizaron con cierto detalle en la sección 6.14. Este problema se mos- 
tró en el resultado anterior de MINITAB, que muestra que sólo se tiene una confianza de 
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81.11% de que todos los intervalos de confianza de 95% contengan sus valores verdaderos. 
Cuando se consideran simultáneamente, algunos intervalos de confianza o pruebas de hipóte- 
sis, aquéllos deben ser más amplios, y el criterio para rechazar las hipótesis nulas más estric- 
to, que en situaciones donde sólo está implicado un intervalo o una prueba. En estas 
situaciones se utilizan métodos de comparaciones múltiples para producir intervalos de con- 
fianza simultáneos y pruebas de hipótesis simultáneas. Si se construyen intervalos de con- 
fianza simultáneos de nivel 100(1 — (%)% para las diferencias entre cada par de medias, 
entonces se tiene una confianza de nivel 100(1 — ()% de que cada intervalo de confianza 
contenga la diferencia verdadera. Si se realizan pruebas de hipótesis simultáneas para todas 
las hipótesis nulas de la forma A, : 1, — u; = O, entonces se puede rechazar, al nivel d%, cada 
hipótesis nula cuyo P-valor sea menor que Qz. 


El método de Bonferroni de comparaciones múltiples 


El método de Bonferroni, analizado en la sección 6.14, es un método general, válido siempre 
que algunos intervalos de confianza o pruebas sean considerados simultáneamente. La apli- 
cación del método es simple. Sea C el número de pares de las diferencias que van a compa- 
rarse. Por ejemplo, si hay / tratamientos, y todos los pares de diferencias que van a 
compararse, entonces C = I(1 — 1)/2. El método de Bonferroni es el mismo que el método de 
DSM, excepto que q se sustituye con 0/C. 


El método de Bonferroni para intervalos de confianza simultáneos 

y pruebas de hipótesis 

Se supone que se están considerando C diferencias de la forma uu, — q; Los interva- 
los de confianza simultáneos de Bonferroni, al nivel 100(1 — 0%, para las C dife- 
rencias 4; — My SON 


ae en 1 1 
2 A BE t-nejoc [SE (> + 7) (9.35) 
i j 


Se tiene una confianza del 100(1 — (0% de que los intervalos de confianza de Bon- 
ferroni contengan el valor verdadero de la diferencia 1, — 1; para todos los pares C 
que se están considerando. 

Con el fin de probar las C hipótesis nulas de la forma A, : 4, — 1, = 0, los esta- 


dísticos de prueba son 
MSE a ar , 
hy 


Determine el P-valor para cada prueba consultando la tabla t de Student con N — 1 
grados de libertad, y multiplique el P-valor encontrado por C. 
Específicamente, si 


en == 1 1 
A MSB 
IX; Al => Un, 10] (> + z) 


entonces Ay es rechazada con un nivel de qx. 


E Jjemplo 
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Con los datos de soldaduras analizados en el ejemplo 9.9 utilice el método de Bonferroni pa- 
ra determinar cuáles pares de flujos, si los hay, se puede concluir que difieren en su efecto de 
dureza, a un nivel del 5%. 


Solución 
Hay I = 4 niveles, con J = 5 observaciones en cada nivel, de un total de N = 20 observacio- 
nes. Con cuatro niveles, hay un total de C = (4)6)/2 = 6 pares de medias que comparar. 
Para probar al nivel « = 5%, se calcula 0/(2C) = 0.004167. El valor crítico de f es t16. 004167- 
Este valor no está en la tabla; se encuentra entre t16, 005 = 2.921 y £16, 001, = 3.686. Mediante 
software se calcula fi6, 004167 = 3.0083. Sin el respectivo software se podría aproximar este 
valor en forma aproximada por interpolación. Ahora MSE = 63.975 (véase el ejemplo 9.9), 
por lo que tn-1,a/0c) y/MSE(/J; + 1/J;) = 3.0083//63.975(1/5 + 1/5) = 15.22. Las 
cuatro medias muestrales son: 


Flujo | A B Cc D 
Medida de la dureza | 253.8 263.2 271.0 262.0 


Hay solamente un par de las medias muestrales, 271.0 y 253.8, cuya diferencia es mayor a 
15.22. Por tanto, se concluye que las soldaduras producidas con el flujo A tienen una media 
de dureza diferente que las generadas con el flujo C. Ninguna de las otras diferencias son im- 
portantes con un nivel de 5%. 


Aunque es fácil de utilizar, el método de Bonferroni tiene la desventaja que cuando C 
se hace grande, los intervalos de confianza resultan muy anchos, y las pruebas de hipótesis 
tienen potencia baja. La razón de esto último consiste en que el método de Bonferroni es un 
método general, no específicamente diseñado para el análisis de varianza o para poblaciones 
normales. En muchos casos C es bastante grande, en particular con frecuencia se desean com- 
parar todos los pares de medias. En estos casos, el método de Tukey-Kramer es superior, 
porque está diseñado para comparaciones múltiples de las medias de poblaciones normales. 
A continuación se le describe. 


El método de Tukey-Kramer de comparaciones múltiples 


El método de Tukey-Kramer está basado en la distribución de rango studentizado, en lugar 
de la distribución f de Student. Dicha distribución tiene dos grados de libertad como valores, que 
para el método de Tukey-Kramer son / y N — 1. (En comparación, la prueba F utiliza / — 1 y 
N — IT grados de libertad.) El método de Tukey-Kramer utiliza el cuantil 1 — ( de la distribución 
de rango studentizado con / y N — I grados de libertad; esta cantidad se denota por q; y — 7 o. La 
tabla A.8 (en el Apéndice A) presenta valores de q, y - ;, y, para diferentes valores de /, N, y Q. 
Los mecanismos del método de Tukey-Kramer son los mismos que los del método de DSM, ex- 
cepto que fy-_1 02 y/MSE(1/J; + 1/J;) se sustituye COn G1,N—1,0 y MSE/2(1/J; +1/J;). 
Algunas veces la cantidad 9, v1.0 y (MSE/2)0/J; + 1/J;) se denomina diferencia hones- 
tamente significativa (DHS), en contraparte con la diferencia significativa mínima de Fisher. 
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El método de Tukey-Kramer para los intervalos de confianza simultáneos 

y pruebas de hipótesis 

Los intervalos de confianza simultáneos de Tukey-Kramer de nivel 100(1 — 0)% pa- 
ra todas las diferencias 4; — 4, son 


O MSE (1,1 e 
le j EQIN-—Ia 2 e ” ( e ) 


Ahora se tiene una confianza del 100(1 — 0)% para los intervalos de confianza de 
Tukey-Kramer de que contengan el valor verdadero de la diferencia 4; — pu; para ca- 
da iy j. 

Con el fin de probar todas las hipótesis nulas simultáneas A, : 41, — u; = 0, los es- 
tadísticos de prueba son 


XX; 


MSE (1,1 
TN 


El P-valor para cada prueba se encuentra al consultar la tabla de la distribución de 
rango studentizado (tabla A.8) con / y N — I grados de libertad. 
Para cada par de niveles ¡ y j para los cuales 


¡== asia E + e 
¡A A A A 
j AI,N—I, > 7 mi 


la hipótesis nula Ay : 1; — uy, = O se rechaza con un nivel de (. 


Una nota de terminología: cuando el diseño es balanceado, con todos los tamaños de 
muestra iguales a J, la cantidad y (MSE/2D(1/J; + 1/J;) esigual a /MSE/J para todos los 


pares de niveles. En este caso, con frecuencia el método sólo se llama método de Tukey. 


Para los datos de las soldaduras en la tabla 9.1 (en la sección 9.1), ¿cuáles pares de flujos, si 


hay, se puede concluir, con un nivel de 5%, que difieren en su efecto en la dureza? 


Solución 


Hay / = 4 niveles, con J = 5 observaciones en cada nivel, para un total de N = 20 observa- 
ciones en total. Con el propósito de probar con un nivel de a = 0.05, se consulta la tabla de 


rango studentizado (tabla A.8) encontrando qa, 16, 05 = 4.05. 


El valor de MSE es 63.975 (véase el ejemplo 9.9). Por tanto, 41 1-104VMSE/J = 


4.05/63.975/5 = 14.49. Las cuatro medias muestrales son: 


Flujo A B C D 
Medida de la dureza | 253.8 263.2 271.0 262.0 
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Hay solamente un par de medias muestrales, 271.0 y 253.8, cuya diferencia es mayor a 14.49. 
Por tanto, se concluye que las soldaduras producidas con el flujo A tienen una media de du- 
reza diferente que las soldaduras producidas con el flujo C. Ninguna de las otras diferencias 
son importantes con un nivel de 5%. 


Al comparar los resultados del ejemplo 9.11 con los del 9.10 se encuentra, en este caso, 
que el método de Tukey-Kramer es ligeramente más poderoso que el método de Bonferroni, 
ya que su valor crítico es solamente de 14.49, mientras que el de Bonferroni fue de 15.22. 
Cuando es posible comparar todos los pares posibles, como en este ejemplo, el método de Tu- 
key-Kramer es siempre más poderoso que el de Bonferroni. Cuando sólo se comparan algu- 
nos de los pares posibles, el método de Bonferroni es a veces más poderoso. 

En ocasiones sólo se realiza una sola prueba, pero la diferencia que se prueba se elige 
al examinar las medias muestrales y al elegir dos cuya diferencia es grande. En estos casos se 
debe utilizar un método de comparaciones múltiples, aunque sólo se esté realizando una prue- 
ba. El ejemplo 9.12 ilustra la idea. 


Un ingeniero examina los datos de las soldaduras en la tabla 9.1 y advierte que los dos trata- 
mientos con la diferencia mayor en las medias muestrales son los flujos A y C. Decide pro- 
bar la hipótesis nula de que la media de la dureza para las soldaduras producidas con el flujo 
A difiere de las que se producen con el flujo C. Debido a que sólo se realizará una prueba, 
utiliza el método de Fisher de DSM en lugar del de Bonferroni o de Tukey-Kramer. Explique 
por qué está equivocado. 


Solución 

El ingeniero ha revisado cada par de medias y ha elegido dos cuya diferencia es mayor. Aun- 
que formalmente está realizando sólo una prueba, ha elegido ésta al comparar cada par de me- 
dias muestrales. Por esta razón debe utilizar un procedimiento de comparaciones múltiples, 
como el método de Bonferroni o de Tukey-Kramer. 


El siguiente resultado de MINITAB presenta intervalos de confianza simultáneos de 
95% de Tukey-Kramer para los datos de las soldaduras. 


Tukey 95% Simultaneous Confidence Intervals 
AI Pairwise Comparisons 


Individual confidence level = 98.87% 
A subtracted from: 


Lower Center Upper  ++==== iS AR iii Ss 
B -5.087 9.4000 23.887 pesas di ) 
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(a 


2.713 17.200 31.687 patas AA ) 
-6.287 8.200 22.687 o dp ) 


u 


B subtracted from: 


Lower Center Upper -=-=---- sas O === 
C -6.687 7.800 22.28/ (aentenes RRE ) 
D -15.687 -1.200 13.287 (sao A ) 
RAeas denon Pp ss td +--- 
Lo 0 15 30 


C subtracted from: 


Lower Center Upper ====-- iii id E OE e 
D -23.487 -9.000 5.487  (=======-- PoR ) 
ÓN Paesseráso Po esca +--- 
=15 0 15 30 


Los valores “Center” son las diferencias entre pares de medias del tratamiento. Las can- 
tidades “Lower” y “Upper” son los límites inferior y superior, respectivamente, del intervalo 
de confianza. Se tiene una confianza de 95% de que cada uno de estos intervalos contenga la 
diferencia verdadera de las medias de tratamiento. Observe que el “Individual confidence le- 
vel” es 98.87%. Esto significa que se tiene una confianza con ese porcentaje de que cualquier 
intervalo de confianza específico contenga su valor verdadero. Por último, se indica que el ni- 
vel de confianza para los intervalos de Tukey-Kramer es mayor que para los intervalos de Fis- 
her DSM, los intervalos de Tukey-Kramer son más amplios. 


En el ejemplo 9.5 (en la sección 9.1) se presentaron varias mediciones de las máximas concen- 
traciones por hora (en ug/m') de SO, para cada una de cuatro centrales hidroeléctricas, y se con- 
cluyó que la media de las concentraciones en las cuatro plantas no eran todas iguales. El 
siguiente resultado de MINITAB presenta los intervalos de confianza simultáneos del 95% de 
Tukey-Kramer para la media de las concentraciones de las cuatro plantas. ¿Cuáles pares de plan- 
tas, si hay alguna, puede concluir con una confianza del 95% que tienen medias diferentes? 


Tukey 95% Simultaneous Confidence Intervals 
AI Pairwise Comparisons 


Individual confidence level = 98.87% 
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1 subtracted from: 


Lower Center Upper  =-=--- AEREAS PASAR napa ES n= 
2 109.4 385.3 661.1 (esas eS ) 
3 21.4 312.3 603.1 ais RIA AE ) 
4 -94.6 170.9 436.4 (es=ratas ces ) 
ds denon ds ptas denon +---- 
-300 0 300 600 


2 subtracted from: 


Lower Center Upuer: += qs=taskass pais bed h---- 
3 -348.9 -73.0 202.9 (Aran. A ÓS ) 
4 -463.4 -214.3 O Bose ) 
-300 0 300 600 


3 subtracted from: 


Lower Center Upper === Posse sana Raso 
4 -406.8 -141.3 124.1 (AE d===== age) 
-300 0 300 600 
Solución 


Entre los intervalos de confianza simultáneos hay dos que no contienen 0. Éstos son los in- 
tervalos para 4; — pu» y para uu, — 3. Por tanto, se concluye que la media de las concentra- 
ciones difiere entre las plantas 1 y 2 y entre las 1 y 3. 


Ejercicios para la sección 9.2 


1. El artículo “Organic Recycling for Soil Quality Conservation in a Sub-Tropical Plateau Region” (K. Chakrabarti, B. Sarkar y 
cols., en J. Agronomy and Crop Science, 2000:137-142) describe un experimento en el que se trataron muestras de suelo con 
seis tratamientos diferentes, con dos réplicas por tratamiento, y se registró la actividad de fosfato ácido (en mol de p-nitrofe- 
nol liberado por gramo de tierra seca por hora). Una tabla ANOVA para un ANOVA de un sentido se presenta en el cuadro si- 
guiente. 


One-way ANOVA: Treatments A, B, C, D, E, F 


Source DF SS MS F Pp 
Treatment 5 1.18547 0.23709 46.64 0.000 
Error 6 0.03050 0.00508 

Total 11 1.21597 
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Las medias del tratamiento fueron 


Tratamiento | A B C D E F 
Media | 0.99 1.99 1.405 1.63 1.395 1.22 


a) ¿Puede concluir que hay diferencias en la actividad de fosfato ácido entre los tratamientos? 


b) Utilice el método de Tukey-Kramer para determinar cuáles pares de medias de tratamiento, si los hay, son diferentes a un 
nivel de 5%. 


c) Utilice el método de Bonferroni para determinar cuáles pares de medias de tratamiento, si los hay, son diferentes con un ni- 
vel de 5%. 


d) ¿Cuál método es más poderoso en este caso: el método de Tukey-Kramer o el de Bonferroni? 


e) El experimentador observa que el tratamiento A tenía la media muestral más pequeña, mientras que la media del tratamien- 
to B era mayor. De los métodos de Fisher de DSM, de Bonferroni y del de Tukey-Kramer, ¿cuál, si hay alguno, se puede 
utilizar para probar que la hipótesis de estas dos medias de tratamiento son iguales? 


2. El artículo “Optimum Design of an A-pillar Trim with Rib Structures for Occupant Head Protection” (H. Kim y S. Kang, en 
Proceedings of the Institution of Mechanical Engineers, 2001:1161-1169) analiza un estudio en que varios tipos de columnas 
A se compararon para determinar cuál proporciona la mayor protección para los ocupantes de los automóviles durante una co- 
lisión. Se sigue una tabla ANOVA de un sentido, donde los tratamientos son tres niveles de espacio longitudinal del saliente (el 
artículo también analiza dos factores insignificantes, que aquí se omitieron). Había nueve réplicas en cada nivel. La respuesta 
es el criterio de lesión de cabeza (HIC), una cantidad sin unidades que mide la absorción de energía de impacto de la columna. 


One-way ANOVA: Spacing 


Source DF SS MS F Pp 
Spacing 2 50946.6 2541303 5.071 0.015 
Error 24 120550.9 5023.0 

Total 26 171497.4 


Las medias de tratamiento fueron 


Tratamiento A B Cc 
Media 930.87 873.14 979.41 


a) ¿Puede concluir que el espaciado longitudinal afecta la absorción de energía de impacto? 


b) Utilice el método de Tukey-Kramer para determinar cuáles pares de medias de tratamiento, si las hay, son diferentes con un 
nivel de 5%. 


c) Utilice el método de Bonferroni para determinar cuáles pares de medias de tratamiento, si las hay, son diferentes con un ni- 
vel de 5%. 


d) ¿Cuál método es más poderoso en este caso, el método de Tukey-Kramer o el de Bonferroni? 


3. Las resinas de acrílico utilizadas en la fabricación de dentaduras postizas no deben absorber mucha agua, ya que se reduce la 
fuerza. El artículo “Reinforcement of Acrylic Resin for Provisional Fixed Restorations. Part III: Effects of Addition of Titania 
and Zirconia Mixtures on Some Mechanical and Physical Properties” (W. Panyayong, Y. Oshida y cols., Bio-Medical Materials 
and Engineering, 2002:353-366) describe un estudio del efecto sobre la absorción de agua al agregar dióxido de titanio (TO) 
y dióxido de circonio (ZrO») a una resina acrílica usual. Se midió la absorción de agua (en ug/mm?) de cada uno de doce ele- 
mentos de cada una de diferentes formulaciones, con diferentes cantidades de TiO, y ZrO,, que fueron inmersas en agua du- 
rante una semana. Los resultados se presentan en la tabla siguiente. 
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Volumen % 
Formulación TiO, ZrO0, Media Desviación estándar 
A (control) 0 0 24.03 2.50 
B 1 1 14.88 1:53 
€ 1 2 12.81 1.08 
D 1 0.5 11.21 2.98 
E 2 2 16.05 1.66 
F 2 + 12.87 0.96 
G 2 1 15.23 0.97 
H 3 3 15.37 0.64 


a) Utilice el método de Bonferroni para determinar cuál de las formulaciones no controladas (de la B a la H) difiere, con un 
nivel de 5%, en su media de absorción de agua a partir de la formulación de control A. 


b) Repita el inciso a) utilizando el método de Tukey-Kramer. 


Cc) ¿Qué método es más poderoso para estas comparaciones? ¿Por qué? 


. Considere el ejercicio 1 de la sección 9.1. 


a) Con el método de Bonferroni determine qué pares de medias, si hay, son diferentes con un nivel de 5%. 
b) Con el método de Tukey-Kramer determine qué pares de medias, si hay, son diferentes con un nivel de 5%. 


c) ¿Cuál es el método más poderoso para encontrar todos los pares de tratamientos cuyas medias son diferentes, el método de 
Bonferroni o el de Tukey-Kramer? 


. Considere el ejercicio 11 de la sección 9.1. 


a) Mediante el método de Bonferroni determine cuáles pares de medias, si hay, son diferentes con un nivel de 5%. 
b) Con el método de Tukey-Kramer determine cuáles pares de medias, si hay, son diferentes con un nivel de 5%. 


c) ¿Cuál es el método más poderoso para encontrar todos los pares de tratamientos cuyas medias son diferentes, el de Bonfe- 
rroni o el de Tukey-Kramer? 


. Considérese el ejercicio 1 en la sección 9.1. Un científico quiere determinar si la media de la cantidad absorbida durante 24 ho- 
ras difiere de la media de las cantidades absorbidas durante una, dos, cuatro y diez horas. 


a) Con el método de Bonferroni determine cuáles de las medias, si hay, para una, dos, cuatro y diez horas difieren de la me- 
dia de 24 horas. Utilice un nivel de 5%. 


b) Mediante el método de Tukey-Kramer determine cuáles de las medias, si hay, para una, dos, cuatro y diez horas difieren de 
la media durante 24 horas. Utilice un nivel de 5%. 


c) ¿Cuál es el método más poderoso para encontrar todos los tratamientos cuyas medias difieren de la de duración de 24 ho- 
ras, el de Bonferroni o el de Tukey-Kramer? 


. Considérese el ejercicio 11 de la sección 9.1. Un minero quiere determinar si la media fuerza de tensión para elementos endu- 
recidos a 900%C difiere de la media para fuerzas endurecidas a 750, 800 y 850*C. 


a) Con el método de Bonferroni determine cuáles de las medias, si hay, para 750, 800 y 850*C difiere de la media para 900*C. 


b) Con el método de Tukey-Kramer determine cuáles de las medias, si hay, para 750, 800, y 850*C difiere de la media para 
900*C. 

c) ¿Cuál es el método más poderoso para encontrar todos los pares de los tratamientos cuyas medias difieren de la de 900*C, 
el de Bonferroni o el de Tukey-Kramer? 
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$. 


10. 


11. 


12. 


13. 


14. 


15. 


16. 


Considere el ejercicio 3 de la sección 9.1. 


a) Con el método de Fisher de DSM encuentre un intervalo de confianza de 95% para la diferencia entre las medias de los tra- 
tamientos B y D. 


b) Con el método de Tukey-Kramer determine qué pares de tratamientos, si hay, son diferentes con un nivel de 5%. 


. Considérese el ejercicio 5 de la sección 9.1. 


a) Con el método de Fisher de DSM encuentre un intervalo de confianza de 95% para la diferencia entre las medias para Buc- 
keye Hollow y Bear Branch. 


b) Con el método de Tukey-Kramer determine cuáles pares de tratamientos, si hay, difieren con un nivel de 5%. 


Considere el ejercicio 7 de la sección en 9.1. 


a) Con el método de Fisher de DSM encuentre un intervalo de confianza de 95% para la diferencia entre las medias para los 
catalizadores 1 y 3. 


b) Con el método de Tukey-Kramer determine qué pares de catalizadores, si hay, difieren con un nivel de 5%. 


Con referencia al ejercicio 14 en la sección 9.1. 


a) Con el método de Fisher de DSM encuentre un intervalo de confianza de 95% para la diferencia entre las medias para un 
diámetro de 16 y otro de 36. 


b) Con el método de Tukey-Kramer determine qué pares de diámetros, si hay, difieren con un nivel de 5%. 


Considere el ejercicio 16 de la sección 9.1. 


a) Con el método de Fisher de DSM encuentre un intervalo de confianza de 95% para la diferencia entre las medias para cla- 
vos de estrías anulares y comunes. 


b) Con el método de Tukey-Kramer determine qué pares de tipos de clavo, si hay, difieren con un nivel de 5%. 


En un experimento para determinar el efecto del catalizador en la producción de cierta reacción, la media de las producciones 
para las reacciones operadas con cada uno de los cuatro catalizadores fue X, = 89.88, X, = 89.51, X, = 86.98 y Xy = 85.79. 
Suponga que se hicieron cinco operaciones con cada catalizador. 


a) Si MSE = 3.85, calcule el valor del estadístico F para probar la hipótesis nula de que los cuatro catalizadores tienen la mis- 
ma media de la producción. ¿Puede concluir que difiere con un nivel de 5%? 


b) Con el método de Tukey-Kramer determine qué pares de catalizadores, si hay, se puede concluir que difieren con un nivel 
de 5%. 


En un experimento para determinar el efecto del tiempo de endurecimiento sobre la fuerza compresiva de cierto tipo de con- 
creto, la media de las fuerzas, en MPa, para elementos endurecidos para cada uno de los cuatro tiempos de endurecimiento fue- 
ron X, =1316,X, = 1326, X, = 1375 y X, = 1 389. Suponga que se endurecieron cuatro elementos para cada tiempo de 
endurecimiento. 


a) Si MSE = 875.2, calcule el valor del estadístico F' para probar la hipótesis nula de que los cuatro tiempos de endurecimien- 
to tienen la misma media de la fuerza. ¿Esta hipótesis nula puede ser rechazada con un nivel de 5%? 


b) Con el método de Tukey-Kramer determine qué pares de tiempos de endurecimiento, si hay, se puede concluir que difieren 
con un nivel de 5%. 


Para algunos conjuntos de datos, el estadístico F rechazará la hipótesis nula de ninguna diferencia en la media de la produc- 
ción, pero el método de Tukey-Kramer no encontrará algún par de medias que pueden concluir que difieren. Para las cuatro 
medias muestrales dadas en el ejercicio 13, suponiendo un tamaño de muestra de 5 para cada tratamiento, determine un valor 
de MSE con el propósito de que el estadístico F' rechace la hipótesis nula de que no hay diferencia con un nivel de 5%, mien- 
tras que el método de Tukey-Kramer no encuentra algún par de medias que difieran con un nivel de 5%. 


Para algunos conjuntos de datos, el estadístico F' rechazará la hipótesis nula de la no diferencia en la media de las produccio- 
nes, pero el método de Tukey-Kramer no encontrará algún par de medias que se pueda concluir que difiere. Para las cuatro me- 
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dias muestrales dadas en el ejercicio 14, suponiendo un tamaño de muestra de 4 para cada tratamiento, encuentre un valor de 
MSE con el propósito de que el estadístico F' rechace la hipótesis nula de ninguna diferencia con un nivel de 5%, mientras que 
el método de Tukey-Kramer no encuentra algún par de medias que difieran con un nivel de 5%. 


9.3 Experimentos de dos factores 


En los experimentos de un factor, analizados en las secciones 9.1 y 9.2, el propósito es deter- 
minar si al cambiar el nivel de un solo factor sólo se afecta la respuesta. Muchos experimen- 
tos implican variar algunos factores, cada uno de ellos puede afectar la respuesta. En esta 
sección se analizará el caso en el que existen dos factores. Los experimentos, naturalmente 
suficientes, son llamados experimentos de dos factores. Se muestra con un ejemplo. 

Un ingeniero químico está estudiando los efectos de varios reactivos y catalizadores en 
la producción de cierto proceso. Esta última se expresa como un porcentaje de un máximo 
teórico. Se hicieron cuatro Operaciones del proceso para cada combinación de tres reactivos 
y cuatro catalizadores. Los resultados se presentan en la tabla 9.2. En este experimento hay 
dos factores, el catalizador y el reactivo. El primero se llama factor renglón, ya que su valor 
varía de renglón a renglón en la tabla; el segundo se denomina factor columna. Estas desig- 
naciones son arbitrarias, en la tabla se podía haber presentado tan fácilmente como que los 
renglones representen los reactivos y las columnas, los catalizadores. 


TABLA 9.2 Producciones para varias operaciones de un proceso químico con varias 
combinaciones de reactivos y catalizadores 


Reactivo 
Catalizador 1 2 3 
A 86.8 82.4 86.7 83.5 93.4 85.2 94.8 83.1 77.9 89.6 89.9 83.7 
B 71.9 72.1 80.0 77.4 74.5 87.1 71.9 84.1 87.5 82.7 78.3 90.1 
C 65.5 72.4 76.6 66.7 66.7 77.1 76.7 86.1 72.7 77.8 83.5 78.8 
D 63.9 70.4 77.2 81.2 73.7 81.6 84.2 84.9 79.8 75.7 80.5 72.9 


En general hay / niveles del factor renglón y J niveles del factor columna. (En la tabla 
9.2, 1 =4 y J = 3). Por tanto, hay 7 J combinaciones diferentes de los dos factores. La termi- 
nología para estas combinaciones de factores no está estandarizada. Se llamará a cada com- 
binación de factores tratamiento, pero algunos escritores usan el término combinación de 
tratamiento. Se debe recordar que las unidades asignadas a un tratamiento específico se de- 
nominan réplicas. Cuando el número de éstas es el mismo para cada tratamiento, se denotará 
con K. Por consiguiente, en la tabla 9.2, K = 4. 

Cuando las observaciones se toman en cada tratamiento posible, el diseño se llama di- 
seño completo o diseño factorial completo. Los diseños incompletos, en que no hay datos 
para uno o más tratamientos, pueden ser difíciles de interpretar, excepto para algunos casos 
especiales. Cuando sea posible se deben utilizar los diseños completos. Cuando el número de 
réplicas es el mismo para cada tratamiento, se dice que el diseño es balanceado. Para los ex- 
perimentos de un solo factor no se necesitaba suponer que el diseño era balanceado. Con los 
experimentos de dos factores los diseños no balanceados son mucho más difíciles de analizar 
que los balanceados. Se restringirá el análisis a diseños balanceados. Como con los experi- 
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mentos de un solo factor, los factores pueden ser fijos o aleatorios. Los dos métodos que se 
describirán son aplicables a modelos de efectos fijos. Después se describirán brevemente mo- 
delos donde uno o ambos factores son aleatorios. 

En un diseño totalmente aleatorio, cada tratamiento representa una población, y las ob- 
servaciones sobre éste representan una muestra aleatoria simple de esa población. Se denota- 
rán los valores muestrales para el tratamiento que corresponderá al ¡-ésimo nivel del factor de 
renglón y al j-ésimo nivel del factor columna por X;;, . . . , X¡¡x. Se denotará el resultado de 
la media de la población para este tratamiento con pu; Los valores pu, con frecuencia se lla- 
man medias de tratamiento. En general, el propósito de un experimento de dos factores con- 
siste en determinar si las medias de tratamiento están afectados por la variación del factor 
renglón, del factor columna, o de ambos. El método de análisis adecuado para los experimen- 
tos de dos factores se denomina análisis de varianza de dos sentidos. 


Parametrización para el análisis de varianza de dos sentidos 


En un análisis de varianza de dos sentidos se desea determinar si al cambiar el nivel de los 
factores de renglón o de columna cambia también el valor 1; Para hacer esto último se debe 
expresar uu en función de los parámetros que describen los factores renglón y columna por 
separado. Se iniciará esta tarea describiendo alguna notación para los promedios de las me- 
dias de tratamiento respecto de los diferentes niveles de los factores renglón y columna. 

Para cualquier nivel ¡ del factor de renglón, el promedio de todas las medias de trata- 
miento 1, en el ¡-ésimo renglón se denota mediante ju, . Se expresa u, en relación con las me- 
dias de tratamiento de la siguiente manera: 


J 
1 
=5 Si (9.37) 
j=1 
De manera similar, para cualquier nivel ¡ del factor de columna, el promedio de todas las me- 
dias de tratamiento ,, en la j-ésima columna se denota por 41, Se expresa 4, en función de 
las medias de tratamiento, como se muestra a continuación: 


1 
1 
Hj=F Y Mij (9.38) 
i=1 
Por último, se define la gran media de la población, se denota por U, que representa el pro- 
medio de todas las medias de tratamiento pu. La gran media de la población también se pue- 
de expresar como el promedio de las uu, o de las cantidades q 


1 
0 ¿Em LN (9.39) 


i=1 i=l ¡=1 
La tabla 9.3 ilustra las relaciones entre u;;, M., UM; y Mo 
Utilizando las cantidades 4, , 1, y 1, se puede descomponer la media de tratamiento y; 
como sigue: 


pj = MAH (8, — 4) + (4; 4) + (Uy — MH BF Hp) (9.40) 
La ecuación (9.40) expresa la media de tratamiento ¿como una suma de cuatro términos. En 


la práctica, se usa la notación más simple para los tres términos que están más a la derecha en la 
ecuación (9.40): 
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O = Mp (9.41) 
B)=H,=H (9.42) 
Yi = My — PEA (9.43) 


TABLA 9.3 Medias de tratamiento y sus promedios a través de los 
renglones y hacia debajo de las columnas 


Nivel columna Media del 
Nivel renglón 1 2 Pe. J renglón 
1 Pair Mi e Mai 73 
Mar Mo q Moa Ha. 
I Pri pra ms Pus 17 
Media de la Ea a e Es 
columna 


Cada una de las cantidades u, 0%, B; y y; tiene una interpretación importante: 


La cantidad u es la gran media de la población, que es el promedio de todas las medias 
de tratamiento. 

La cantidad A, = 1, — p se llama el ¡-ésimo efecto de renglón. Representa la diferen- 
cia entre el promedio del tratamiento para el nivel del ¡-ésimo del factor renglón y la gran 
media de la población. El valor de Q%, indica el grado con el cual el ¿-ésimo nivel factor 
de renglón tiende a producir resultados que son mayores o menores que la gran media de 
la población. 

La cantidad f; = 1; — y se llama el ¡-ésimo efecto de columna. Es la diferencia entre 
el promedio de las medias del tratamiento para el ¡-ésimo nivel del factor columna y la 
gran media de la población. El valor de f; indica el grado con el cual el ¡-ésimo nivel del 
factor columna tiende a producir resultados mayores o menores que la gran media de la 
población. 

La cantidad y, = 4; — Mi, — Mi, + pose lama interacción ¡;. El efecto de un nivel de fac- 
tor renglón (o columna) puede depender de qué nivel del factor columna (o renglón) está 
apareado con éste. Los términos de interacción miden el grado con el que esto último ocu- 
rre. Por ejemplo, suponga que el nivel 1 del factor renglón tiende a producir un resultado 
grande cuando se aparea con la columna de nivel 1, pero un resultado pequeño cuando se 
aparea con una columna de nivel 2. En este caso ), , sería positiva, y Y, 2 sería negativo. 


Tanto los efectos de renglón como los de columna se llaman efectos principales para 


distinguirlos de las interacciones. Observe que hay / efectos renglón, uno por cada nivel del 
factor renglón, los efectos columna J, uno por cada nivel del factor columna, y las /J interac- 
ciones, una por cada tratamiento. Además, se tiene de las definiciones de las cantidades ,, 
H¿ y U de las ecuaciones (9.37) a la (9.39) que los efectos de renglón, efectos de columna, y 
las interacciones satisfacen las restricciones siguientes: 


1 J 1 J 
Ya; =0 Y Bp=0 Y w=)d 1=0 (9.44) 
i=1 j=1 i=1 


j=1 
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Ahora se puede expresar a las medias de tratamiento y, en función de 0%, B, y de y;. De la 
ecuación (9.40) se tiene que 


Bj = MAH 04H Bj + yy (9.45) 
Para cada observación Xy se define Ejy = Xi — My la diferencia entre la media de la obser- 


1 


vación y su media de tratamiento. Las cantidades €; se llaman errores. De aquí que 


Xx = Puy + Ek (9.46) 
Al combinar las ecuaciones (9.46) y (9.45) se obtiene el modelo ANOVA de dos sentidos: 
Xox = 14H 044 By+ Y + Enx (9.47) 


Cuando todas las interacciones y, son iguales a O, se dice que el modelo aditivo es aplicable. 
Bajo el modelo aditivo, la ecuación (9.45) será 
pj = 14+ 0, + B; (9.48) 

y la ecuación (9.47) será 

Xi = MH 0 + Bj + Eje (9,49) 
Bajo el modelo aditivo, la media de tratamiento 1, es igual a la gran media de la población 
11, más una cantidad ox, que es resultado de utilizar el renglón i más otra f; que es resultado 
de utilizar la columna ¡. En otras palabras, el efecto combinado de utilizar el renglón de nivel 
í junto con la columna de nivel ¡ se encuentra al sumar los efectos principales individuales de 
los dos niveles. Cuando alguna o todas las interacciones no son iguales a O, el modelo aditi- 
vo no vale, y el efecto combinado de un nivel de renglón y un nivel de columna no puede de- 
terminarse a partir de sus principales efectos individuales. 

Ahora se mostrará cómo estimar los parámetros para el modelo completo de dos senti- 
dos (9.47). El procedimiento para el modelo aditivo es exactamente el mismo, excepto que no 
se estiman las interacciones Y;. El procedimiento es directo. Primero se define alguna nota- 
ción para varios promedios de los datos Xy, utilizando como ejemplo los datos de la tabla 9.2, 
La tabla 9.4 presenta el promedio de la producción de las cuatro operaciones para cada reac- 
tivo y catalizador de la tabla 9.2. 


TABLA 9.4 Promedio de las producciones Xi. para operaciones de un proceso 
químico utilizando diferentes combinaciones de reactivos y catalizadores 


Reactivo 

Catalizador 1 2 3 Media del renglón X,. 

A 84.85 89.13 85.28 86.42 

B 15,39 79.40 84.65 79.80 

C 70.30 76.65 78.20 75.05 

D 73.18 81.10 711.23 77.17 
Media de la 75.92 81.57 81.34 Gran media muestral 
columna X X.. =79.61 


Cada número en el cuerpo de la tabla 9.4 es el promedio de los cuatro números en la 
celda correspondiente de la tabla 9.2. Éstos se llaman las medias de las celdas. Se denotan 
por X;, y se definen como 


K 
E 1 
Xi == A» > (9.50) 
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Al promediar las medias de las celdas a través de los renglones se obtienen las medias de ren- 
glón X, : 


y A y 
a 7 Xi =35k SY Xi (9.51) 


Asimismo, cuando se promedian las medias de las celdas hacia abajo de las columnas se ob- 
tienen las medias de columna X' ;: 


1 I E 1 ES 
¿=> 72 Xu 22 (9.52) 


La gran media muestral X_ se puede encontrar al calcular el promedio de las medias de ren- 
glón, el promedio de las medias de la columna, el promedio de las medias de la celda, o el 
promedio de todas las observaciones: 


1 I 1 J 1 J EN 1 I JP K 
E AD AN (9.53) 


Ahora se describe como estimar los parámetros en el modelo ANOVA de dos sentidos. 
La idea fundamental es que la mejor estimación de la media del tratamiento 1, es la media 
de la celda X,; ¡¡» Que representa el promedio de las observaciones muestrales que tiene ese tra- 
tamiento. Se tiene que la mejor estimación de la cantidad q, es la media del renglón X;, la 
mejor estimación de la cantidad 11; es la media de la columna X ¡> y la mejor estimación de 
la gran media de la población U es la gran media muestral X_.. Se estiman los efectos de ren- 
glón que 0%, los efectos columna $), y las interacciones y al sustituir estas estimaciones en las 


ecuaciones de la (9.41) a la (9.43). 


0 =X,X, (9.54) 
B=X,-X. (9.55) 
e E (9.56) 


Los efectos renglón, los efectos columna y las interacciones satisfacen las restricciones dadas 
en la ecuación (9.44). Realizando un poco de álgebra, se puede demostrar que sus estimacio- 
nes satisfacen las mismas restricciones: 


I J I J 
Ya=0 YB=0 Y =) pj=0 (9.57) 


Calcule los efectos estimados de renglón, de columna y las interacciones para los datos de la 
tabla 9.2. 


Solución 
Mediante las cantidades de la tabla 9.4 y las ecuaciones (9.54) a (9.56) se calcula 


0, = 86.42 — 79.61 = 6.81 0 = 79.80 — 79.61 = 0.19 
0%, = 75.05 — 79.61 = -4.56 0, = 77.17 — 79.61 = -2.44 
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$, = 75.92 — 79.61 = —-3.69 $, = 81.57 — 79.61 = 1.96 
$B, = 81.34 — 79.61 = 1.73 

Yu= 2.12 Fu= 0.75 Fr = —2.87 

Y. = 0.76 Ya = 2.36 Ha=. 312 

73 = -1.06 732 = -0.36 Ya = 1142 

Va = 0.30 Ya=" 107 Faz = —1.67 


Utilizando un ANOVA de dos sentidos para probar hipótesis 


Un análisis de varianza de dos sentidos está diseñado para responder tres preguntas principales: 


1. 
2. 
3. 


¿El modelo aditivo vale? 
¿Sí es así, la media del resultado es la misma para todos los niveles del factor renglón? 
¿Sí es así, la media del resultado es la misma para todos los niveles del factor columna? 


En general, se hacen las preguntas 2 y 3 solamente cuando se cree que el modelo aditivo 


puede valer. Esto último se analizará con profundidad más adelante. Las tres preguntas son in- 
dicadas para la realización de pruebas de hipótesis. Las hipótesis nulas para estas pruebas son: 


1. 


Para probar si el modelo aditivo vale se prueba la hipótesis nula de que todas las interac- 
ciones son iguales a 0: 


Hoi VM= 02110 


Si esta hipótesis nula es verdadera, el modelo aditivo vale. 
Para probar si la media del resultado es igual para todos los niveles del factor renglón, se 
prueba la hipótesis nula de que todos los efectos renglón son iguales a 0: 


Bo: 0% 0% SS 0 0 


Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos 
los niveles del factor renglón. 

Para probar si la media del resultado es igual para todos los niveles del factor columna, 
se prueba la hipótesis nula de que todos los efectos columna son iguales a 0: 


AniP == B 0 


Si esta hipótesis nula es verdadera, entonces la media del resultado es igual para todos 
los niveles del factor columna. 


Ahora se describen las pruebas usuales para estas hipótesis nulas. Para que las pruebas 


sean válidas, las siguientes condiciones deben valer: 
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Supuestos para un ANOVA de dos sentidos 
Las pruebas usuales de hipótesis ANOVA de dos sentidos son válidas bajo las si- 
guientes condiciones: 


1. El diseño debe estar completo. 

2. El diseño debe ser balanceado. 

3. El número de réplicas por tratamiento, K, deber ser al menos 2. 

4. Dentro de cualquier tratamiento, las observaciones X';;, . . . , X¡¡x Constituyen una 
muestra aleatoria simple de una población normal. 

5. La varianza poblacional es igual para todos los tratamientos. Esta varianza se de- 


nota mediante 07. 


Igual que con un ANOVA de un sentido, las pruebas usuales para estas hipótesis nulas 
están basadas en las sumas de los cuadrados. Específicamente, son la suma de los cuadrados 
de renglón (SSA), de los cuadrados de columna (SSB), de los cuadrados de interacción 
(SSAB), y de los cuadrados del error (SSE). También es de interés la suma total de los cua- 
drados (SST), que es igual a la suma de las otras. Las fórmulas para estas sumas de cuadra- 
dos son: 


I F I 
SSA=JK Y 2 =IK VA, X.Y? = IKO) Xi. 1IKX', (9.58) 
i=1 i=1 i=1 
J 9 J 7 E a 3 
SSB = IK) B=IKÓ) (XX, Y = KO X 5 - IJKX" (9.59) 
j=l j=1 j=1 


Oy 1J 
SSAB= K)d » 7; = KYO (Xp Xi —X + X.Y? 


¡=l ¡=1 ¡=1 ¡=1 


10J 1 J 
=D XI XA ARO E 4 LI KI, (9.60) 
¡=1 j=1 


¡=1 ¡=1 


OJO K LO K 
SSE = y NO Xi = Xi Y = $ AN = KYO Xi (0.61) 


dl J K I J K 
SssT= Y Y Y Xij X.Y? = YU Y Y XA, — II KK, (9.62) 


Se puede ver, de las expresiones que están más a la derecha en las ecuaciones (9.58) a (9.62), 
que la suma total de los cuadrados, SST, es igual a la suma de las otras. Ésta es la identidad 
del análisis de varianza para un ANOVA de dos sentidos. 
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La identidad del análisis de varianza 


SST = SSA + SSB + SSAB + SSE (9.63) 


Junto con cada suma de los cuadrados aparece una cantidad conocida como sus grados 
de libertad. Las sumas de los cuadrados y sus grados de libertad, en general, se presentan en 
una tabla ANOVA. La tabla 9.5 presenta los grados de libertad para cada suma de los cuadra- 
dos, junto con la fórmula más conveniente para el cálculo. Se indica que los grados de liber- 
tad para SST es la suma de los grados de libertad para las otras sumas de los cuadrados. 


TABLA 9.5 Tabla ANOVA para un ANOVA de dos sentidos 


Fuente Grados de libertad Suma de los cuadrados 
I I 
Renglones (SSA) T—1 HO) a = IKÓN X. —IJKX. 
i=1 i=1 
J % J 
Columnas (SSB) F=1 IKN B, =IK) XX —1IKXÓ 
j=l j=1 


Interacciones(SSAB) U=D0W-1) DD Y a YY Yi - KYY 
i=1 


j=l ¡=1 ¡=l ¡=1 
J 
AKI + LIKXÓ 


j=1 


I J K I J K E J 
Error (SSE) INK—1) NO X= YY KO YX 


¡=l j=1 k=1 j=l ¡=1 k=1 i=l j=1 


Total (SST) UK =1 A Y 7 X= > >. Vx, LI 


i=l ¡=1 k=1 j=l ¿¡=1 k=1 


Observe que la magnitud de SSA depende de la magnitud de los efectos de renglón es- 
timados 0%, Por tanto, cuando los efectos de renglón verdaderos 0, son iguales a O, SSA ten- 
derá a ser más pequeña, y cuando algunos de los efectos de renglón verdaderos no sean 
iguales a 0, SSA será mayor. Por tanto, se rechazará a H, : 4, =*** = 0 = 0 cuando SSA 
sea suficientemente grande. De manera semejante, SSB tenderá ser más pequeña cuando los 
efectos de columna verdaderos $; sean iguales a O y mayor cuando algunos efectos de colum- 
na no sean 0, y SSAB tenderá a ser más pequeña cuando las interacciones verdaderas y, sean 
todas iguales a O y mayor cuando algunas interacciones no sean O. Por tanto, se rechazará H, : 
B, =-*** = B, = 0 cuando SSB sea suficientemente grande, y se rechazará Hp: Y =***= 
Y = O cuando SSAB sea muy grande. 

Se puede determinar si SSA, SSB y SSAB son bastante grandes comparándolas con la 
suma de los cuadrados del error, SSE. Como en el ANOVA de un sentido (sección 9.1), SSE 
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depende solamente de las distancias entre las observaciones y sus propias medias de celda. 
Por tanto, SSE mide sólo la variación aleatoria inherente al proceso y no está afectado por los 
valores de los efectos de renglón, los de columna o las interacciones. 

Para comparar SSA, SSB y SSAB con SSE, primero se divide cada suma de los cuadra- 
dos entre sus grados de libertad, produciendo cantidades conocidas como medias cuadráti- 
cas. Estas últimas se denotan mediante MSA, MSB, MSAB y MSE, están definidas así: 


SSA SSB SSAB 
MS=%% MSB="—  MSAB= 
Fai F=á a=DG=1 
E 
Mbs 0 (9.64) 
IHK-=1) 


Los estadísticos de prueba para las tres hipótesis nulas son los cocientes de MSA, MSB 
y MSAB con MSE. Las distribuciones nulas de estos estadísticos de prueba son las distribu- 
ciones F. Específicamente, 


mM Bajo H,: 0 =***= 0 =0, el estadístico a tiene una distribución F)- 1, 1xk — 1) 


m BajoH,: Pf, =***= B,=0, el estadístico Neal tiene una distribución F) - 1 1k - 1) 


m Bajo H,: Y =***= Yy=0, el estadístico o tiene una distribución Fy-— 114 1,11 1) 


En la práctica, las sumas de cuadrados, las medias cuadráticas y los estadísticos de 
prueba generalmente se calculan utilizando una computadora. El siguiente resultado de MI- 
NITAB presenta la tabla ANOVA para los datos de la tabla 9.2. 


Two-way ANOVA: Yield versus Catalyst, Reagent 


Source DF SS MS F Pp 
Catalyst 3 877.56 292.521 9.36 0.000 
Reagent 2 327.14 163.570 Dala 0.010 
Interaction 6 156.98 26.164 0.84 0.550 
Error 36 1125.33 31.259 

Total 47 2487.02 

S = 5.591 R-=sq = 54.75% R-Sqladj) = 40.93% 


Las etiquetas DF, SS, F y P se refieren a los grados de libertad, suma de cuadrados, media 
cuadrática, los estadísticos F, y P-valor, respectivamente. Como en un ANOVA de un senti- 
do, la media cuadrática para el error (MSE) es una estimación de la varianza del error a”, la 
cantidad “S” representa la raíz cuadrada de MSE y es una estimación de la desviación están- 
dar del error dr. Las cantidades “R-sq” y “R-sq(adj)” se calculan con fórmulas similares a las 
del ANOVA de un sentido. 
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Utilice la tabla ANOVA anterior para determinar si el modelo aditivo es creíble para los da- 
tos de producción. Si lo fuera, ¿¿se puede concluir que el catalizador o el reactivo afecta la pro- 
ducción? 


Solución 

Primero se verifica si el modelo aditivo es creíble. El P-valor para las interacciones es 0.55, 
que no es pequeño. Por tanto, no se rechaza la hipótesis nula de que todas las interacciones 
son iguales a O, y se concluye que el modelo aditivo es creíble. En consecuencia, ahora la si- 
guiente pregunta es si los factores renglón o columna afectan el resultado. Se ve de la tabla 
que el P-valor para los efectos de renglón (catalizador) es O aproximadamente, por lo que se 
concluye que el catalizador afecta la producción. De manera similar, el P-valor para los efec- 
tos de columna (reactivo) es pequeño (0.010), por lo que se concluye que el reactivo también 
afecta la producción. 


El artículo “Uncertainty in Measurements of Dermal Absorption of Pesticides” (W. Navidi y A. 
Bunge, en Risk Analysis, 2002:1175-1182) describe un experimento en el que se aplicó un pes- 
ticida a piel en diferentes concentraciones y distintos tiempos. El resultado es la cantidad del 
pesticida que absorbió la piel. El siguiente resultado de MINITAB presenta la tabla ANOVA. 
¿El modelo aditivo es creíble? Si es así, ¿afecta la concentración o la duración la cantidad ab- 
sorbida? 


Two-way ANOVA: Absorbed versus Concentration, Duration 
Source DF SS MS P Pp 
Concent 2 49.991 24.996 107.99 0.000 
Duration 2 19.157 9.579 41.38 0.000 
Interaction 4 0.337 0.084 0.36 0.832 
Error 217 6.250 0.231 
Total 35 15.135 

Solución 


El P-valor para la interacción es 0.832, por lo que se concluye que el modelo aditivo es creí- 
ble. Los P-valores tanto para la concentración como para la dosis son muy pequeños. Por tan- 
to, se deduce que tanto la concentración como la duración afectan la cantidad absorbida. 


Comprobación de los supuestos 


Se puede utilizar una gráfica de residuos para comprobar el supuesto de las variancias igua- 
les, y una gráfica de probabilidad normal de los residuos para verificar la normalidad. La grá- 
fica de residuos traza los residuos Xy. — X ¡¡; Contra los valores ajustados, que son las medias 
muestrales X,,. Las figuras 9.6 y 9.7 presentan tanto una gráfica de probabilidad normal co- 
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mo una de residuos para los datos de la producción que se encuentran en la tabla 9.2. Parece 
que los supuestos se satisfacen bien. 


0.999 - 7 
0.99 FP ES 
0.95 P e 

0.9 P 
0.75 P eS 7 
0.5 Pp 7 
0.253 | 
0.1 FP 
0.05 y 
0.01 + “e al 


0.001 P 7 
10 =5 0 3 10 


FIGURA 9.6 Gráfica de probabilidad normal para los residuos a partir de los datos de pro- 
ducción. No hay evidencia de fuerte desviación de la normalidad. 
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Valor ajustado 


FIGURA 9.7 Gráfica de residuos para los datos de producción. No hay evidencias contra 
el supuesto de las variancias iguales. 


No interprete los efectos principales 

cuando el modelo aditivo no vale 

Cuando las interacciones son suficientemente pequeñas para que el modelo aditivo sea creí- 
ble, la interpretación de los efectos principales es muy directa, como se muestra en los ejem- 
plos 9.15 y 9.16. Sin embargo, cuando el modelo aditivo no vale, no siempre es fácil 
interpretar los efectos principales. He aquí un ejemplo hipotético para ilustrar el punto. Su- 
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ponga que un proceso está operando bajo condiciones obtenidas al variar dos factores dife- 
rentes en dos niveles cada uno. Se hacen dos operaciones en cada una de las cuatro combina- 
ciones de niveles de renglón y de columna. Cada vez se mide la producción y se obtienen los 
resultados que se presentan en la tabla siguiente. 


Nivel de Nivel de columna 


renglón 1 2 
1 51, 49 43, 41 
2 43, 41 51, 49 


Obviamente, si se desea maximizar la producción, los factores de renglón y de columna son 
importantes, se quiere aparear ya sea el nivel de renglón 1 con el nivel de columna 1 o el ni- 
vel de renglón 2 con el nivel de columna 2. 

Ahora mire la tabla siguiente de ANOVA. 


Source DF SS MS F Pp 
Row 1 0.0000 0.0000 0.00 1.000 
Column 1 0.0000 0.0000 0.00 1.000 
Interaction 1 128.00 128.00 64.00 0.001 
Error 4 8.0000 2.0000 

Total 7 136.00 


Los efectos principales de la suma de los cuadrados tanto para el renglón como para la co- 
lumna son iguales a O, y sus P-valores son iguales a 1, que es el P-valor más grande que pue- 
de haber. Si se continúa con el procedimiento usado en los ejemplos 9.15 y 9.16, se concluirá 
que ni el factor de renglón ni el factor de columna afectan la producción. Pero es claro de los 
datos que los factores de renglón y de columna afectan la producción. Lo que está ocurrien- 
do es que ambos no importan en promedio. El nivel 1 del factor renglón es mejor si se usa el 
nivel 1 del factor columna, y el nivel 2 del factor renglón es mejor si se usa nivel 2 del factor 
columna. Cuando se determina el promedio sobre dos niveles del factor columna, los niveles 
del factor renglón tienen la misma media de producción. Asimismo, los niveles columna tie- 
nen la misma media de producción cuando se promedian sobre los niveles del factor renglón. 
Cuando los efectos de los niveles de renglón dependen de cuáles niveles columna se han apa- 
reado, y viceversa, los efectos principales pueden ser engañosos. 

El P-valor para las interacciones es el que indica que no se trata de interpretar los efec- 
tos principales. Este P-valor es muy pequeño, por lo que se rechaza el modelo aditivo. Enton- 
ces se sabe que algunas de las interacciones son diferentes de cero, por lo que los efectos de 
los niveles de renglón dependen de los niveles de columna, y viceversa. En consecuencia, 
cuando se rechaza el modelo aditivo no se debe tratar de interpretar los efectos principales. 
Se necesita observar en las mismas medias de celda para determinar cómo afectan el resulta- 
do las diferentes combinaciones de los niveles de renglón y de columna. 
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En un análisis de varianza de dos sentidos: 


mM Si el modelo aditivo no es rechazado, entonces las pruebas de hipótesis para los 
efectos principales se pueden utilizar para determinar si los factores renglón o co- 
lumna afectan el resultado. 


E Si el modelo aditivo es rechazado, entonces las pruebas de hipótesis para los efec- 
tos principales no se deben utilizar. En lugar de eso, se deben examinar las medias 
de celda para determinar cómo afectan el resultado las diferentes combinaciones 
de los niveles de renglón y de columna. 


El espesor de la capa de dióxido de silicio en una placa semiconductora es crucial para su de- 
sempeño. En el artículo “Virgin Versus Recycled Wafers for Furnace Qualification: Is the Ex- 
pense Justified?” (V. Czitrom y J. Reece, en Statistical Case Studies for Process Improvement, 
SIAM-ASA, 1997:87-103) se midió el espesor de la capa de óxido para tres tipos de placas: 
placas vírgenes, placas recicladas en la empresa, y placas recicladas por un proveedor exter- 
no. Además se utilizaron diferentes posiciones en el horno para crecer la capa de óxido. Se 
realizó un ANOVA de dos sentidos por tres operaciones en una empresa de fabricación de pla- 
cas para los tres tipos de placas en tres ubicaciones del horno. Los datos se presentan en la ta- 
bla siguiente, seguida por el resultado de MINITAB. 


Ubicación en Espesor de la 
el horno Tipo de placa capa de óxido (A) 
il Virgen 90.1 90.7 89.4 
ll En la empresa 90.4 88.8 90.6 
1 Externa 92.6 90.0 93,3 
2 Virgen 91.9 88.6 89.7 
2 En la empresa 90.3 91.9 91,5 
Z Externa 88.3 88.2 89,4 
3 Virgen 88.1 90.2 86.6 
3 En la empresa 91.0 90.4 90.2 
3 Externa 91.5 89.8 89.8 


Two-way ANOVA for Thickness versus Wafer, Location 


Source DF SS MS F Pp 
Wafer 2 5.8756 2.9378 2.07 0.155 
Location 2 4.1089 2.0544 1.45 0.262 
Interaction 4 21.349 SIT 3.76 0.022 
Error 18 25.573 1.4207 


Total 26 56.907 
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Debido a que las placas recicladas son más baratas, la compañía espera que no haya nin- 
guna diferencia en el espesor de la capa de óxido entre los tres tipos de chips. Si es posible, 
determine si los datos son consistentes con la hipótesis de ninguna diferencia. Si no posible, ex- 
plique por qué. 


Solución 

El P-valor para las interacciones es 0.022, que es pequeño. Por tanto, el modelo aditivo no es 
creíble por lo que no se pueden interpretar los efectos principales. Un aspecto positivo es ha- 
cer una tabla de las medias de la celda. La tabla 9.6 presenta la media muestral para cada tra- 
tamiento. 


TABLA 9.6 Medias muestrales para cada tratamiento 


Ubicación en Tipo de placa Media del 
el horno Virgen En la empresa Externa renglón 
1 90.067 89.933 91.967 90.656 
2 90.067 91.233 88.633 89.978 
3 88.300 90.533 90.367 89.733 
Media de 89.478 90.566 90.322 
la columna 


De la tabla 9.6 se puede ver que los espesores varían entre los tipos de placa, pero ningu- 
no de éstos produce la capa de óxido más gruesa o más angosta. Por ejemplo, en la ubicación 1 
del horno las placas recicladas externamente producen la capa más gruesa, mientras las placas 
recicladas en la empresa producen la más angosta. En la ubicación 2 del horno se invierte el or- 
den: las placas en la empresa producen la capa más gruesa mientras las externas la más angos- 
ta. Esto último es atribuible a la interacción de la ubicación del horno y del tipo de placa. 


Un ANOVA de dos sentidos no es lo mismo 
que dos ANOVA de un sentido 


En el ejemplo 9.17 se presentó un ANOVA de dos sentidos con tres niveles de renglón y tres 
de columna, para un total de nueve tratamientos. Si se corrieran los ANOVA de un sentido se- 
parados, habría solamente seis tratamientos. Lo anterior significa que en la práctica correr por 
separado los ANOVA de un sentido para cada factor podría ser menos costoso que correr un 
ANOVA de dos sentidos. Desgraciadamente, a veces este diseño de “uno-a-la-vez” se usa en 
la práctica por esta razón. Es importante darse cuenta que correr análisis de un sentido de fac- 
tores individuales puede dar resultados engañosos cuando las interacciones están presentes. Pa- 
ra ver esto, mire la tabla 9.6. Suponga que un ingeniero está tratando de encontrar la 
combinación de horno y ubicación que producirá la capa de óxido más angosta. Primero corra 
el proceso una vez en cada ubicación del horno, utilizando placas recicladas de la empresa, 
porque esas placas son las que actualmente se usan en la producción. La ubicación 1 del hor- 
no produce la capa más angosta para las placas de la empresa. Ahora el ingeniero corre el pro- 
ceso una vez para cada tipo de placa, todas en la ubicación 1, que fue la mejor para las placas 
de la empresa. De los tres tipos de placa las placas en la empresa producen la capa más angos- 
ta en la ubicación 1. Así que la conclusión que se obtiene del análisis uno-a-la-vez es que las 
capas más angostas se producen mediante la combinación de placas de la empresa en la ubica- 


9.3 Experimentos de dos factores 673 


ción 1 del horno. Una mirada a la tabla 9.6 muestra que la conclusión es falsa. Hay dos com- 
binaciones de ubicación de horno y tipo de placa que producen capas más angostas que ésta. 

El método de uno-a-la-vez supone que la placa que produce las capas más angostas en 
una ubicación producirá las más angostas en todas las ubicaciones, y que la ubicación que 
produce las capas más angostas para un tipo de placa producirá las capas más angostas para 
todos los tipos. Esto último equivale a suponer que no hay ninguna interacción entre los fac- 
tores, que en el caso de las placas y las ubicaciones es incorrecto. En resumen, el método uno- 
a-la-vez falla porque no puede detectar las interacciones entre los factores. 


E Cuando hay dos factores se debe usar un diseño de dos factores. 


Mm El examen de un factor a la vez no puede revelar las interacciones entre los factores. 


Gráficas de interacción 


Las gráficas de interacción pueden ayudar a visualizar las interacciones. La figura 9.8 presen- 
ta una gráfica de interacción para los datos de placa. Se describe el método con el que se cons- 
truyó esta gráfica. El eje vertical representa la respuesta: el espesor de capa. Se elige un factor 
para que se represente en el eje horizontal. Se eligió la ubicación de horno; habría sido igual- 
mente aceptable haber elegido el tipo de placa. Ahora se continúa a través de los niveles del 
factor tipo de placa. Se inicia con las placas externas. Las tres medias de la celda para placas 
externas, como se muestran en la tabla 9.6, son 91.967, 88.633, y 90.367, que corresponden 
a las ubicaciones del horno 1, 2 y 3, respectivamente. Estos valores se trazan arriba de sus ubi- 
caciones respectivas en el horno y se conectan con segmentos de recta. Este procedimiento se 
repite en los otros dos tipos de placa para terminar la gráfica. 
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5] 
3 
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pl externas 
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1 2 3 
Ubicación en el horno 


FIGURA 9.8 Gráfica de interacción para los datos de placa. Las rectas están lejos de ser 
paralelas, ello indica una importante interacción entre los factores. 
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En cuanto a los datos de la placa, las medias para placas externas siguen un patrón con- 
siderablemente diferente que las de los otros dos tipos de placa. Ésta es la fuente de la inter- 
acción importante y es la razón por la cual los efectos principales de placa y tipo de horno no 
se pueden interpretar con facilidad. En comparación, para los datos perfectamente aditivos, 
para los cuales las interacciones estimadas Yi son iguales a O, los segmentos de recta en la 
gráfica de interacción son paralelos. La figura 9.9 ilustra este caso hipotético. 


Niveles del 
Factor B 


Medida de la respuesta 


] | 1 | 
Niveles del Factor A 


FIGURA 9.9 Gráfica de interacción para datos hipotéticos con estimaciones de la interac- 
ción Y; iguales a O. Los segmentos de recta son paralelos. 


La figura 9.10 presenta una gráfica de interacción para los datos de producción. Las me- 
dias de celda se presentaron en la tabla 9.4. Las líneas no son paralelas, pero sus pendientes 
se acoplan mejor que para los datos de placa. Esto último indica que las estimaciones de la 
interacción son diferentes de cero, pero son más pequeñas que los datos de la placa. En efec- 
to, el P-valor para la prueba de la hipótesis nula de ninguna interacción fue 0.550 (véase la p. 
667). La desviación del paralelismo que se presenta en la figura 9.10 es, por tanto, bastante 
pequeña para ser consistente con la hipótesis de ninguna interacción. 


Comparaciones múltiples en un ANOVA de dos sentidos 


Se utiliza una prueba FF para probar la hipótesis nula de que todos los efectos renglón (o to- 
dos los efectos columna) sean iguales a O. Si la hipótesis nula es rechazada, se puede concluir 
que algunos de dichos efectos difieren entre sí. Pero la hipótesis de la prueba no dice cuáles 
son diferentes del resto. Si el modelo aditivo es creíble, entonces se puede aplicar el método 
de comparaciones múltiples de Tukey (relacionado con el método de Tukey-Kramer descrito 
en la sección 9.2) para determinar cuáles pares de los efectos renglón o columna difieren en- 
tre sí. El método se describe en el cuadro siguiente. 
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FIGURA 9.10 Gráfica de interacción para los datos de producción. 


Método de Tukey para intervalos de confianza y pruebas de hipótesis para un 
ANOVA de dos sentidos 

Sea / el número de niveles de un factor renglón, J el número de niveles del factor co- 
lumna, y K el tamaño muestral para cada tratamiento. Entonces, si el modelo aditi- 
vo es creíble, los intervalos de confianza simultáneos de nivel 100(1 — 0)% para 
todas las diferencias (4, — 0 (o para todas las diferencias $, — fB;) son 


en MSE SS MSE 


a; —= 0; TQ 1,IKK-1),0 a ¡TP EQ), IKK-0),0 Na 


Se tiene una confianza de 100(1 — 0)% de que los intervalos de confianza de Tukey 
contengan el verdadero valor de la diferencia Q%, — 04 (o fB; — f;) para cada i y j. 


E sE E MSE 
Para cada par de niveles ¡ y j para los cuales [0 — %;| > 91.1:k-1)0 13 la 
hipótesis nula A, : 0, — 0 = 0 se rechaza con un nivel de a. 
: O 2 2 MSE 
Para cada par de niveles ¡ y ¡ para los cuales |f; Pl => Ole Tk > la 


hipótesis nula A, : B, — f; = 0 se rechaza al nivel d.. 


E jemplo 


En el ejemplo 9.14 los efectos principales y las interacciones fueron calculados para los da- 
tos de producción de la tabla 9.2. Una tabla ANOVA para estos datos se presentó en la p. 667. 
Si es adecuado, utilice el método de Tukey para determinar qué pares de catalizadores y de 
reactivos difieren con un nivel de 5%, en su efecto sobre la producción. 
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Solución 

De la tabla ANOVA, el P-valor para las interacciones es 0.550. Por tanto, el modelo aditivo 
es creíble, por lo que es adecuado utilizar el método de Tukey. El catalizador es el factor ren- 
glón y el reactivo lo es de columna, por lo que / = 4, J = 3 y K = 4. De la tabla ANOVA, 
MSE = 31.259. 

Primero se encuentran todos los pares para los cuales los efectos de renglón son dife- 
rentes con un nivel de 5%. Para los efectos de renglón se debe utilizar el valor q, 36 05. Este 
valor no se encuentra en la tabla de rango studentizado (tabla A.8, Apéndice A). Por tanto, se 
utiliza el valor 94 36, 05 = 3.85, que está cercano (sólo ligeramente mayor que) 94, 36, 05 Se calcu- 


la 9430.05 V/MSE/JK = 3.85,/31.259/12 = 6.21. 


En el ejemplo 9.14 los efectos de renglón estimados fueron calculados de 


0, = 6.81 0, = 0.19 0% = -4,56 Oy = 2,44 

Los pares de efectos de renglón cuyas diferencias son mayores a 6.21 son Q, y Q,, A, y 0%, y 
0, y O, Se concluye que la media de la producción del catalizador A difiere de la media de 
las producciones de los catalizadores B, C y D, pero no se puede concluir que la media de las 
producciones de los catalizadores B, C, y D difieren entre sí. 

Ahora se encuentran todos los pares para los cuales los efectos de columna difieren con 
un nivel de 5%. Para los efectos columna se debe utilizar el valor, 93 36, 5, pero debido a que 
este valor no se encuentra en la tabla de rango studentizado, se utilizará el valor, 93 30, os = 


3.49. Se calcula 9330.05 4MSE/IK = 3.49,/31.259/16 = 4.88. 


En el ejemplo 9.14 los efectos de columna estimados fueron calculados de 
B, = -3.69 B, = 1.96 B, = 1.73 


Los pares de los efectos de columna cuyas diferencias son mayores a 4.88 son $, y $, y $, y 
$B,. Se concluye que la media de la producción del reactivo 1 es diferente de la media de las 
producciones de los reactivos 2 y 3, pero no se puede concluir que la media de las produccio- 
nes de los reactivos 2 y 3 difieran entre sí. 


ANOVA de dos sentidos cuando K = 1 


Las pruebas F que se han presentado requieren del supuesto que el tamaño muestral K para 
cada tratamiento sea al menos de 2. La razón para esto último consiste en que cuando K = 1, 
la suma de los cuadrados del error (SSE) es igual a O, puesto que Xy = X para cada i y j. 
Además, los grados de libertad para SSE, que están dados por IJ(K — 1), es igual a O cuando 
K=1. 

Cuando K = 1, no se puede realizar un ANOVA de dos sentidos, a menos que se tenga 
la seguridad de que el modelo aditivo vale. En este caso, puesto que se ha supuesto que las 
interacciones sean iguales a cero, se pueden utilizar la media cuadrática para la interacción 
(MSAB); véase la ecuación 9.64) y sus grados de libertad; en este sentido, en lugar de MSE, 
pruébense los efectos principales de renglón y de columna. 


Factores aleatorios 


El análisis de los experimentos de dos factores se ha concentrado en el caso donde ambos fac- 
tores son fijos. Se dice que un experimento sigue un modelo de efectos fijos. También se pue- 
den diseñar los experimentos para que uno o los dos factores sean aleatorios. Si ambos 
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factores lo son, se dice que el experimento sigue un modelo de efectos aleatorios. Si un fac- 
tor es fijo y el otro es aleatorio, se dice que el experimento sigue un modelo mezclado. 

Para el caso de un factor, el análisis es el mismo tanto para modelos de efectos fijos co- 
mo aleatorios, mientras que la hipótesis nula de la prueba es diferente. En este contexto, pa- 
ra el caso de dos factores, tanto los métodos de análisis como las hipótesis nulas difieren entre 
los modelos de efectos fijos, los aleatorios y los mezclados. Los métodos para modelos en los 
cuales uno o más efectos son aleatorios se pueden encontrar en textos más avanzados, como 
Hocking (2003). 


Diseños desbalanceados 


Se ha supuesto que el diseño sea balanceado; es decir, que el número de réplicas sea igual en 
cada tratamiento. Los métodos que aquí se han descrito no son aplicables a diseños desbalan- 
ceados. Sin embargo, los diseños desbalanceados que están completos se pueden analizar con 
los métodos de regresión múltiple. Se puede consultar un texto avanzado, como Draper y 
Smith (1998), para los detalles. 


Ejercicios para la sección 9.3 


1. Para tasar el efecto del tipo de anillo del pistón y del tipo de aceite en el desgaste del anillo del pistón, se estudiaron tres tipos 
del primero y cuatro tipos del segundo. Se midió el número de miligramos de material perdido por el anillo en cuatro horas de 
uso en tres réplicas de un experimento, se realizaron para cada una de las 12 combinaciones del tipo de aceite y del tipo de ani- 
llo de pistón. Con el tipo de aceite como el efecto renglón y tipo de anillo del pistón como el efecto columna, se observaron 
las siguientes sumas de los cuadrados: SSA = 1.0926, SSB = 0.9340, SSAB = 0.2485, SSE = 1.7034. 


a) 
b) 
c) 
d) 
e) 
$) 
8) 


h) 


¿Cuántos grados de libertad hay para el efecto del tipo de aceite? 

¿Cuántos grados de libertad hay para el efecto del tipo de anillo del pistón? 

¿Cuántos grados de libertad hay para las interacciones? 

¿Cuántos grados de libertad hay para el error? 

Construya una tabla ANOVA. Puede dar rangos para los P-valores. 

¿El modelo aditivo es creíble? Proporcione el valor del estadístico de prueba y el P-valor. 


¿Es creíble que los efectos principales del tipo de aceite son todos iguales a 0? Proporcione el valor del estadístico de prue- 
ba y el P-valor. 


¿Es creíble que los efectos principales del tipo de anillo del pistón sean todos iguales a 0? Proporcione el valor del estadís- 
tico de prueba y el P-valor. 


2. Una tienda de maquinaria utiliza tres máquinas para pulir con precisión rodillos para levas. Se emplearon tres operarios para pu- 
lir los rodillos en las máquinas. En un experimento para determinar si hay diferencias en el producto entre las máquinas o entre 
sus operarios, cada uno de éstos trabajó en cada máquina durante cuatro días diferentes. El resultado medido fue la producción 
diaria de partes que satisfacían las especificaciones. Con el operario como el efecto renglón y la máquina como el efecto colum- 
na, se observaron las siguientes sumas de los cuadrados: SSA = 3 147.0, SSB = 136.5, SSAB = 411.7, SSE = 1 522.0. 


a) ¿Cuántos grados de libertad hay para el efecto operario? 


b) ¿Cuántos grados de libertad hay para el efecto máquina? 


c) ¿Cuántos grados de libertad hay para las interacciones? 


d) ¿Cuántos grados de libertad hay para el error? 


e) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


f) ¿El modelo aditivo es creíble? Proporcione el valor del estadístico de prueba y el P-valor. 
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8) ¿Es creíble que los efectos principales de operador sean todos iguales a 0? Proporcione el valor del estadístico de prueba y 
el P-valor. 


h) ¿Es creíble que los efectos principales de máquina sean todos iguales a 0? Proporcione el valor del estadístico de prueba y 
el P-valor. 


3. Un experimento para determinar el efecto de la temperatura del molde sobre la fuerza de tensión implicaba tres aleaciones di- 
ferentes y cinco temperaturas de molde distintas. Se fundieron cuatro elementos de cada aleación para cada temperatura de mol- 
de. Con la temperatura de molde como el factor renglón y la aleación como el factor columna, las sumas de los cuadrados 
fueron: SSA = 69 738, SSB = 8 958, SSAB = 7 275 y SST = 201 816. 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Es creíble el modelo aditivo? Explique. 


c) ¿Es creíble que los efectos principales de la temperatura de molde sean todos iguales a 0? Proporcione el valor del estadís- 
tico de prueba y el P-valor. 


d) ¿Es creíble que los efectos principales de aleación sean todos iguales a 0? Proporcione el estadístico de prueba del valor y 
el P-valor. 


4. El efecto de la presión de endurecimiento sobre la fuerza de enlace se probó en cuatro adhesivos diferentes. Había tres niveles 
de presión de endurecimiento. Se realizaron cinco réplicas para cada combinación de presión de endurecimiento y adhesivo. 
Con adhesivo como el factor renglón y la presión de endurecimiento como el factor columna, las sumas de los cuadrados fue- 
ron: SSA = 155.7, SSB = 287.9, SSAB = 156.7 y SST = 997.3. 

a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Es creíble el modelo aditivo? Explique. 


c) ¿Es creíble que los efectos principales de la presión de endurecimiento sean todos iguales a 0? Proporcione el valor del es- 
tadístico de prueba y el P-valor. 


d 


= 


¿Es creíble que los efectos principales de adhesivo sean todos iguales a 0? Proporcione el valor del estadístico de prueba y 
el P-valor. 


5. El artículo “Change in Creep Behavior of Plexiform Bone with Phosphate Ion Treatment” (R. Regimbal, C. DePaula y N. Gu- 
zelsu, en Bio-Medical Materials and Engineering, 203:11-25) describe un experimento para estudiar los efectos con solucio- 
nes salinas y con soluciones del ion fosfato sobre las propiedades mecánicas del hueso plexiforme. La tabla siguiente presenta 
las mediciones de tensión producidas para seis elementos tratados con la solución salina (NaCl) o con la solución de ¡on fos- 
fato (Na,HPO,), a 25 o 37*C. (El artículo presenta solamente las medias y las desviaciones estándar; los valores en la tabla son 
consistentes con éstos.) 


Solución Temperatura Tensión producida (MPa) 

NaCl 25"C 138.40 130.89 94.646 96.653 116.90 88.215 
NaCl 37€ 92.312 147.28 116.48 88.802 114.37 90.737 
Na,HPO, 25C 120.18 129,43 139.76 132.75 137.23 121.73 
Na,HPO, IFE 123.50 128.94 102.86 99.941 161.68 136.44 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 


d) ¿Puede describirse el efecto de solución (NaCl contra Na,HPO,) sobre la tensión producida interpretando los efectos prin- 
cipales de la solución? Si es así, interprete los efectos principales, incluyendo el estadístico de prueba adecuado y el P-va- 
lor. Si no, explique por qué. 

e) ¿Puede describirse el efecto de la temperatura sobre la tensión producida interpretando los efectos principales de la tempe- 
ratura? Si es así, interprete los efectos principales, incluyendo el estadístico de prueba adecuado y el P-valor. Si no, expli- 
que por qué. 
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6. Se realizó un estudio para determinar los efectos de dos factores sobre lo cremoso del jabón. Los dos factores eran tipo de agua 
(de la llave contra desionizada) y glicerina (presente o ausente). El resultado medido fue la cantidad de espuma producida (en ml). 
Se repitió el experimento tres veces para cada combinación de los factores. Los resultados se presentan en la tabla siguiente. 


Tipo de agua Glicerina Espuma (mL) 


Desionizada Ausente 168 178 168 
Desionizada Presente 160 197 200 
De la llave Ausente 152 142 142 
De la llave Presente 139 160 160 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 


d) ¿Puede describirse el efecto del tipo de agua en la cantidad de espuma al interpretar los efectos principales del tipo de agua? 
Si es así, interprételos. Si no, explique por qué. 

e) ¿Puede describirse el efecto de glicerina en la cantidad de espuma interpretando los efectos principales de glicerina? Si es 
así, interprételos. Si no, explique. 


7. Se realizó un experimento para medir los efectos de dos factores sobre la capacidad de las soluciones de limpieza para elimi- 
nar aceite de una pieza de tela. Los factores fueron la concentración del jabón (en % por peso) y la fracción de ácido láurico 
en la solución. Se repitió dos veces el experimento para la combinación de cada uno de los factores. El resultado medido fue 
el porcentaje de aceite eliminado. Los resultados se presentan en la tabla siguiente. 


Es Fracción de % de aceite 
Peso % de jabón ácido láurico eliminado 
15 10 52.8 54.0 
15 30 57.8 53.3 
23 10 56.4 58.4 
25 30 42.7 45.1 


a) Estime todos los efectos principales y las interacciones. 

b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 

c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 

d) ¿Puede describirse el efecto de concentración de jabón sobre la cantidad de aceite eliminado al interpretar los efectos prin- 
cipales de concentración de jabón? Si es así, interprete los efectos principales. Si no, explique. 


e) ¿Puede describirse el efecto de fracción de ácido láurico sobre la cantidad de aceite eliminado con la interpretación de los 
efectos principales de la fracción de ácido láurico? Si es así, interprételos. Si no, explique. 


8. El artículo “A 4- Year Sediment Trap Record of Alkenones from the Filamentous Upwelling Region Off Cape Blanc, NW Afri- 
ca and a Comparison with Distributions in Underlying Sediments” (P. Miller y G. Fiseher, en Deep Sea Research, 2001:1877- 
1903) estudió registros de sedimentos atrapados para valorar la transferencia de señales de agua de superficie en el registro 
geológico. Los datos en la tabla siguiente son las mediciones del flujo de masa total (en mg/m? por día) para trampas en dos 
ubicaciones y a profundidades diferentes. 


Ubicación Profundidad Flujo 
A Superior 109.8 86.5 150.5 69.8 63.2 107.8 72.4 74.4 
A Inferior 163.7 139.4 176.9 170.6 123.5 142.9 130.3 111.6 
B Superior 93.2 123.6 143.9 163.2 82.6 63.0 196.7 160.1 
B Inferior 137.0 88.3 53.4 1040 78.0 39,3 117.9 143.0 
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10. 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 


d) Calcule todas las medias de celda. Utilícelas para describir la manera en que afectan al flujo la profundidad y la ubicación. 


. Las articulaciones artificiales constan de una pelota de cerámica montada sobre un cono. El artículo “Friction in Orthopaedic 


Zirconia Taper Assemblies” (W. Macdonald, A. Aspenberg y cols., en Proceedings of the Institution of Mechanical Engineers, 
2000:685-692) presenta datos del coeficiente de fricción para un empujón hacia delante de 2 kN para el ensamble cónico he- 
cho de dos aleaciones de circonio y empleando tres diferentes largos. Se hicieron cinco mediciones para cada combinación de 
material y de largo. Los resultados presentados en la tabla siguiente son consistentes con las medias de celda y desviaciones 
estándar presentadas en el artículo. 


Material del cono Longitud Coeficiente de fricción 

CPTi-ZrO, Corto 0.254 0.195 0.281 0.289 0.220 
CPTi-ZrO, Medio 0.196 0.220 0.185 0.259 0.197 
CPTi-ZrO, Largo 0.329 0.481 0.320 0.296 0.178 
TiAlloy-ZrO, Corto 0.150 0.118 0.158 0.175 0.131 
TiAlloy-ZrO, Medio 0.180 0.184 0.154 0.156 0.177 
TiAlloy-ZrO, Largo 0.178 0.198 0.201 0.199 0.210 


a) Calcule los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba, su distribución nula, y el P-valor. 


d) ¿Puede describirse el efecto del material sobre el coeficiente de fricción interpretando los efectos principales del material? 
Si es así, interprételos. Si no, explique. 


e) ¿Puede describirse el efecto del largo sobre el coeficiente de fricción al interpretar los efectos principales del largo? Si es 
así, interprételos. Si no, explique. 


El artículo “Anodic Fenton Treatment of Treflan MTF” (D. Saltmiras y A. Lemley, en Journal of Environmental Science and 
Health, 2001:261-274) describe un experimento de dos factores diseñado para estudiar la absorción del herbicida trifluralin. 
Los factores son la concentración inicial de trifluralin y el cociente de entrega Fe,:H-20-2. Hubo tres réplicas por cada trata- 
miento. Los resultados que se presentan en la tabla siguiente son consistentes con las medias y las desviaciones estándar noti- 
ficadas en el artículo. 


Concentración Cociente de 
inicial (IM) entrega Absorción (%) 
5 1:0 10.90 8.47 12.43 
15 1:1 3.33 2.40 2.67 
15 1:35 0.79 0.76 0.84 
15 1:10 0.54 0.69 0.57 
40 1:0 6.84 7.68 6.79 
40 1:1 1:72 1,55. 1:82 
40 1:5 0.68 0.83 0.89 
40 1:10 0.58 1.13 1.28 
100 1:0 6.61 6.66 7.43 
100 1:1 1.25 1.46 1.49 
100 1:5 1.17 1.27 1.16 
100 1:10 0.93 0.67 0.80 


11. 


12. 


13. 
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a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba, su distribución nula, y el P-valor. 


Con referencia al ejercicio 10. Los tratamientos con un cociente de entrega de 1:0 fueron controlados, o en blanco. Después del 
experimento se descubrió que los niveles evidentes altos de absorción en tales controles se debían en gran parte a la volatilidad 
del trifluralin. Elimine los tratamientos de control de los datos. 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba, su distribución nula y el P-valor. 


d) Construya una gráfica de interacción. Explique cómo la gráfica ilustra el grado con el que las interacciones están presentes. 


El artículo “Use of Taguchi Methods and Multiple Regression Analysis for Optimal Process Development of High Energy Elec- 
tron Beam Case Hardening of Cast Iron” (M. Jean y Y. Tzeng, en Surface Engineering, 2003:150-156) describe un experimen- 
to factorial diseñado para determinar cómo los factores de un proceso de haces de electrones de alta-energía afectan la dureza 
en metales. Los resultados para dos factores, cada uno con tres niveles, se presentan en la tabla siguiente. El factor A es la ve- 
locidad del viaje en mm/s, y el factor B es el voltaje de aceleración en volts. El resultado es la dureza de Vickers. Hubo seis ré- 
plicas para cada tratamiento. En el artículo se estudió un total de siete factores; los dos que aquí se presentan son los que se 
encontraron más significativos. 


A B Dureza 


10 10 875 896 921 686 642 613 
10 25 712 719 698 621 632 645 
10 50 568 546 559 “757 723 734 
20 10 876 835 868 812 796 772 
20 25 889 876 849 768 706 615 
20 50 756 732 723 681 723 712 
30 10 901 926 893 856 832 841 
30 25 789 801 776 845 827 831 
30 50 792 786 775 706 675 568 


a) Estime todos los efectos principales y las interacciones. 

b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 

c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 
d 


= 


¿Puede describirse el efecto de la velocidad de viaje sobre la dureza interpretando los efectos principales de la velocidad de 
viaje? Si es así, interprete los efectos principales utilizando comparaciones múltiples con un nivel de 5% si es necesario. Si 
no, explique. 

e) ¿Puede describirse el efecto del voltaje de aceleración en la dureza interpretando los efectos principales de voltaje de ace- 
leración? Si es así, interprételos, utilizando comparaciones múltiples con un nivel de 5%. Si no, explique. 


El artículo “T-Bracing for Stability of Compression Webs in Wood Trusses” (R. Leichti, 1. Hofaker, y cols., en Journal of Struc- 
tural Engineering, 2002:374-381) presenta los resultados de los experimentos de la carga crítica de doblaje (en kN) para en- 
sambles reforzados en T, la carga se estimó por un método de elemento finito. La tabla siguiente presenta datos en los que los 
factores son la longitud del miembro de lado y su sistema de unión. Hubo diez réplicas para cada combinación de factores. Los 
datos son consistentes con las medias y las desviaciones estándar dadas en el artículo. 
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Sistema de unión Longitud Carga crítica de doblaje 
Adhesivo Un cuarto 7.90 8.71 7.72 8.88 8.55 6.95 7.07 7.59 7.17 7.86 
Adhesivo La mitad 14.07 13.82 14.77 13.39 11.98 12.72 9.48 13.59 13.09 12.09 
Adhesivo Completo 26.80 28.57 24.82 23.51 27.57 25.96 24.28 25.68 21.64 28.16 
Clavo Un cuarto 6.92 5.38 5.38 5.89 6.07 6.37 7.14 6.71 4.36 6.78 
Clavo La mitad 9.67 9.17 10.39 10.90 10.06 9.86 10.41 10.24 9.31 11.99 
Clavo Completo 20.63 21.15 24.75 20.76 21.64 21.47 25.25 22.52 20.45 20.38 
a) Calcule todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿Es creíble el modelo aditivo? Proporcione el valor del estadístico de prueba y el P-valor. 
d) ¿Puede describirse el efecto del método adjunto (clavo contra adhesivo) sobre la carga crítica de doblaje interpretando los 
efectos principales sobre el sistema de unión? Si es así, interprételos. Si no, explique. 
e) ¿Puede describirse el efecto de la longitud del miembro de lado sobre la carga crítica de doblaje interpretando los efectos 


14. 


principales de la longitud del miembro de lado? Si es así, interprételos, utilizando comparaciones múltiples con un nivel de 
5% si es necesario. Si no, explique. 


El artículo referido en el ejercicio 13 también presenta mediciones de los módulos de Young para los miembros de lado de los 


ensambles reforzados en T. La tabla siguiente presenta los datos en los que los factores son la longitud del miembro de lado y 
su sistema de unión. Hubo diez réplicas para cada combinación de los factores. Los datos (en kN/mm?) son consistentes con 
las medias y las desviaciones estándar dadas en el artículo. 


Sistema de unión — Longitud Módulo de Young 

Adhesivo Cuarto 9.56 10.67 8.82 8.40 9.23 8.20 10.23 9.58 7.57 8.05 

Adhesivo Mitad 8.74 9,24 10.77 9.10 8.08 11.14 10.00 9.17 9.79 8.13 

Adhesivo Completo 9.84 9.80 8.31 7.37 10.12 9.18 8.93 8.65 7.89 9.07 

Clavo Cuarto 10.24 9.38 9.38 7.48 9.23 9.64 8.45 8.12 8.86 8.07 

Clavo Mitad 9.84 9.34 9.64 8.21 10.43 9.48 7.46 9.51 10.20 9.66 

Clavo Completo 7.96 8.32 8.73 9.37 9.12 7.98 9.84 8.89 10.10 8.07 
a) Calcule todos los efectos principales y las interacciones. 

b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 

c) ¿Es creíble el modelo aditivo? Proporcione el valor de un estadístico de prueba y el P-valor. 
d) ¿Puede describirse el efecto del sistema de unión (clavo contra adhesivo) sobre los módulos de Young al interpretar los efec- 

tos principales del sistema de unión? Si es así, interprételos. Si no, explique. 
e) ¿Puede describirse el efecto de la longitud del miembro de lado sobre los módulos de Young interpretando los efectos prin- 
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cipales de la longitud del miembro de lado? Si es así, interprételos mediante comparaciones múltiples con un nivel de 5%. 
Si no, explique. 


Cada uno de tres operarios repesó dos veces algunas placas de silicio. Los resultados se presentan en la tabla siguiente para tres 


placas. Todas las placas tenían pesos muy cercanos a 54 g, por lo que los pesos fueron notificados en unidades de Ug arriba de 
54 gramos (basado en “Revelation of a Microbalance Warmup Effect”, J. Buckner, B. Chin y cols., en Statistical Case Studies 
for Industrial Process Improvement, SIAM-ASA, 1997:39-45). 


Placa Operador 1 Operador 2 Operador 3 
1 11. 15 10 6 14 10 
2 210 208 205 201 208 207 
3 111 113 102 105 108 111 
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a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) ¿Puede determinarse una tabla ANOVA si hay una diferencia en los pesos medidas entre los operadores; si es así, propor- 
cione el valor del estadístico de prueba y el P-valor. Si no, explique por qué no. 


16. En el ejercicio 15 se tiene que las mediciones del operario 2 fueron tomadas por la mañana, poco después de que se había en- 
cendido la balanza. Una nueva política fue instituida de dejar todo el tiempo prendida la balanza. Entonces, los tres operarios 
hicieron dos pesadas de tres placas diferentes. Los resultados se presentan en la tabla siguiente. 


Placa Operador 1 Operador 2 Operador 3 


1 152 156 156 155 152 157 
2 443 440 442 439 435 439 
3 229 227 229 232 225 228 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) Compare la tabla ANOVA del inciso a) con la tabla del inciso a) del ejercicio 15. ¿Recomendaría dejar la balanza prendi- 
da todo el tiempo? Explique su razonamiento. 


17. El artículo “Cellulose Acetate Microspheres Prepared by O/W Emulsification and Solvent Evaporation Method” (K. Soppin- 
math, A Kulkarni y cols., en Journal of Microencapsulation, 2001:811-817) describe un estudio de los efectos de las concen- 
traciones de alcohol polivinílico (PVAL) y diclorometano (DCM) sobre la eficiencia de encapsulación en un proceso que 
produce microesferas que contienen el medicamento ibuprofén. Había tres concentraciones de PVAL (medido en unidades de 
% wlv) y tres de DCM (en ml). Los resultados que se presentan en la tabla siguiente son consistentes con las medias y las des- 
viaciones estándar presentados en el artículo. 


PVAL DCM = 50 DCM = 40 DCM = 30 


0.5 98.983 99.268 95.149 96.810 94.572 86.718 75.288 74.949 72.363 
1.0 89.827 94.136 96.537 82.352 79.156 80.891 76.625 76.941 72.635 
2.0 95.095 95.153 92,353 86.153 91.653 87.994 80.059 79.200 77.141 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) Analice las relaciones entre la concentración de PVAL, la concentración de DCM y la eficiencia de encapsulación. 


9.4 Diseños de bloque completamente aleatorios 


En algunos experimentos hay factores que varían y tienen un efecto en la respuesta, pero esos 
efectos son irrelevantes para el experimentador. Por ejemplo, una situación que ocurre co- 
múnmente es que resulta imposible terminar un experimento en un día, por lo que las obser- 
vaciones se tienen que continuar durante varios días. Si las condiciones que pueden afectar el 
resultado se desvían día tras día, entonces este concepto representa un factor en el experimen- 
to, aunque puede haber un nulo interés en calcular su efecto. 

Para un ejemplo más específico, imagine que se evalúan tres tipos de fertilizantes con 
respecto a su efecto sobre la cosecha de fruta en una huerta de naranjas, y que se realizarán 
tres replicas con un total de nueve observaciones. Un área se divide en nueve parcelas, en tres 
hileras de tres parcelas cada una. Suponga que hay una caída de agua a lo largo del área de la 
parcela, por lo que ahora las hileras reciben cantidades diferentes de agua. La cantidad del 
agua es ahora un factor en el experimento, aunque no hay interés en calcular el efecto de la 
cantidad de agua sobre la cosecha de naranja. 
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Si se ignora el factor de agua, un experimento de un solo factor se podría realizar con 
el fertilizante como el único factor. Cada uno de los tres fertilizantes sería asignado a tres par- 
celas. En un experimento completamente aleatorio, los tratamientos serían asignados a las 
parcelas al azar. La figura 9.11 presenta dos arreglos aleatorios posibles. En el arreglo de la 
izquierda, las parcelas con el fertilizante A tienen más agua que las de los otros dos fertilizan- 
tes. En la parcela de la derecha, las parcelas con el fertilizante C tienen más agua. Cuando los 
tratamientos para un factor son asignados completamente al azar, es probable que no sea dis- 
tribuido uniformemente sobre los niveles de otro factor. 


Más agua Más agua 
a] | | 
B_C_C|menos agua Menos agua 


FIGURA 9.11 Dos arreglos posibles para tres fertilizantes, A, B y C, asignados a las nue- 
ve parcelas en forma completamente aleatoria. Es probable que las cantidades de agua sean 
diferentes para los diferentes fertilizantes. 


Si la cantidad de agua tiene un efecto insignificante sobre la respuesta, entonces es ade- 
cuado el diseño de un solo factor completamente aleatorio. No hay por qué preocuparse por 
un factor que no afecta la respuesta. Pero ahora suponga que el nivel de agua tiene un impac- 
to importante en la respuesta. Entonces la figura 9.11 muestra que en cualquier otro experi- 
mento los efectos estimados de los tratamientos están probablemente fuera de marca, o 
sesgados, por los niveles diferentes del agua. Los arreglos diferentes de los tratamientos des- 
vían las estimaciones en diferentes direcciones. Si el experimento se repite varias veces, las 
estimaciones probablemente varíen mucho de repetición en repetición. Por esta razón, el di- 
seño un solo factor completamente aleatorio produce efectos estimados que tienen incerti- 
dumbres grandes. 

Un mejor diseño para este experimento es uno que contenga dos factores, con el agua 
como el segundo factor. Debido a que los efectos del agua son irrelevantes, el agua se llama 
factor bloqueado, en vez de un factor de tratamiento. En el experimento de dos factores hay 
nueve combinaciones de bloque de tratamiento, por lo que corresponde a los tres niveles del 
tratamiento fertilizante y a los tres niveles de bloque de agua. Con nueve unidades experimen- 
tales (las nueve parcelas) es necesario asignar una parcela a cada combinación de fertilizante 
y agua. La figura 9.12 presenta dos arreglos posibles. 


Más agua Más agua 
Bloquel [| A CB Bloque 1 A 
Bloque2 | B A C Bloque2| A B C 
Bloque3 | B_ C_ A | Menos agua Bloque3| B__A C | Menos agua 


FIGURA 9.12 Dos posibles arreglos para tres fertilizantes, A, B y C, con la restricción 
que cada fertilizante debe aparecer una vez en cada nivel de agua (bloque). La distribución 
de niveles de agua es siempre la misma para cada fertilizante. 
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En el diseño de dos factores cada tratamiento aparece con la misma frecuencia en cada 
bloque (una vez, en este ejemplo). Por consiguiente, el efecto del factor bloqueado no contri- 
buye a la incertidumbre en la estimación de los efectos principales del factor de tratamiento. 
Como consecuencia de que cada tratamiento debe salir con la misma frecuencia en cada blo- 
que, la única aleatorización en la asignación de tratamientos para unidades experimentales es 
el orden en el que salen los tratamientos en cada bloque. Éste no es un diseño completamen- 
te aleatorio; es uno en el que los tratamientos están aleatorizados dentro de los bloques. De- 
bido a que cada combinación posible de tratamientos y bloques es incluida en el experimento, 
el diseño está completo. Por esta razón el diseño se llama diseño de bloques completamen- 
te aleatorios. 

Estos últimos se pueden construir con varios factores de tratamiento y varios factores 
de bloques. Se restringirá este análisis al caso donde hay un factor de tratamiento y un factor 
bloqueado. Los datos de un diseño de bloques completamente aleatorios se analizan con un 
ANOVA de dos sentidos, del mismo modo que serían los datos de cualquier diseño balanceado 
de dos factores, completo. Sin embargo, hay una consideración importante. Los únicos efec- 
tos de interés son los efectos principales del factor de tratamiento. Para interpretar estos efectos 
principales, no debe haber alguna interacción entre el tratamiento y los factores bloqueados. 


Se estudia el efecto de tres fertilizantes sobre la cosecha en una huerta de naranjas. Se están 
utilizando nueve parcelas de tierra, dividida en bloques de tres parcelas cada una. Se usa un 
diseño de bloques completamente aleatorio, aplicando cada fertilizante una vez en cada blo- 
que. Los resultados, en libras de la fruta cosechada, se presentan en la tabla siguiente, segui- 
da del resultado de MINITAB para el ANOVA de dos sentidos. ¿Se puede concluir que la 
media de las cosechas difiere entre los fertilizantes? ¿Qué supuesto se hace acerca de las in- 
teracciones entre fertilizantes y parcelas? ¿Cómo se calcula la suma de cuadrados del error? 


Fertilizante Parcela 1 Parcela 2 Parcela 3 


A 430 542 287 
B 367 463 253 
C 320 421 207 


Two-way ANOVA: Yield versus Block, Fertilizer 


Source DF SS MS lF Pp 
Fertilizer 2 16213.6 8106.778 49.75 0.001 
Block 2 77046.9 38523.44 236.4 0.000 
Error 4 651.778 162.9444 
Total 8 93912.2 

Solución 


El P-valor para el factor fertilizante es 0.001, por lo que se concluye que el fertilizante tiene 
un efecto sobre la cosecha. Se hace el supuesto de que no hay interacción entre el fertilizan- 
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te y el factor bloqueado (parcela), por lo que se pueden interpretar los efectos principales de 
fertilizante. Debido a que hay solamente una observación para cada combinación de trata- 
miento-bloque (es decir, K = 1). La suma de los cuadrados del error (SSE) notificada en el 
resultado de MINITAB es realmente SSAB, la suma de cuadrados de la interacción, y la me- 
dia cuadrática del error (MSE) es en realidad MSAB. (Véase el análisis en la p. 676.) 


Una mirada más cercana a la tabla ANOVA del ejemplo 9.19 muestra que en este expe- 
rimento bloquear era necesario para detectar el efecto fertilizante. Con este propósito, consi- 
dere que el experimento es un experimento de un solo factor. La suma de los cuadrados del 
error (SSE) sería entonces la suma SSE para el diseño bloqueado más la suma de cuadrados 
por bloques, o 651.778 + 77 046.9 = 77 698.7. Los grados de libertad del error serían igua- 
les a la suma de los grados de libertad del error en el diseño bloqueado más los grados de li- 
bertad por bloques, o 2 + 4 = 6. El error medio cuadrático (MSE) sería entonces 77 698.7/6 
= 12 950 en lugar de 162.9444, y el estadístico F' para el efecto fertilizante sería entonces al 
menos de 1, lo que daría como resultado una falla para detectar un efecto. 

En general, utilizar un diseño bloqueado reduce los grados de libertad del error, que só- 
lo tiende a reducir la potencia para detectar un efecto. Sin embargo, a menos que el factor blo- 
queado tenga un muy pequeño efecto sobre la respuesta, esto último será generalmente más 
que compensado por una reducción en la suma de los cuadrados del error. Dejar de incluir un 
factor bloqueado que afecta la respuesta puede reducir la potencia enormemente, mientras que 
incluir un factor bloqueado que no afecta la respuesta reduce la potencia sólo en forma mo- 
desta en la mayoría de los casos. Por esta razón es una buena idea utilizar un diseño bloquea- 
do siempre que se considere que es posible que el factor bloqueado está relacionado con la 
respuesta. 


m Un diseño de bloques completamente aleatorios de dos factores es un diseño de 
dos factores balanceado completo en el cual los efectos de un factor (el factor de 
tratamiento) son relevantes, mientras que los efectos del otro factor (el factor blo- 
queado) no. El factor bloqueado es incluido para reducir la incertidumbre en las 
estimaciones del efecto principal del factor de tratamiento. 


Em Debido a que el objetivo de un diseño de bloques completamente aleatorios es cal- 
cular los efectos principales del factor de tratamiento, no debe haber interacción 
entre el factor de tratamiento y el factor bloqueado. 


Ml Se utiliza un análisis de varianza de dos sentidos para estimar los efectos y realizar 
pruebas de hipótesis sobre los efectos principales del factor de tratamiento. 


m Un diseño de bloques completamente aleatorios proporciona gran ventaja sobre un 
diseño completamente aleatorio cuando el factor bloqueado afecta fuertemente la 
respuesta y proporciona una desventaja pequeña cuando el factor bloqueado no tie- 
ne poco o nada de efecto. Por tanto, cuando se tiene duda, es una buena idea utili- 
zar un diseño bloqueado. 
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El artículo “Experimental Design for Process Settings in Aircraft Manufacturing” (R. Sauter 
y R. Lenth, en Statistical Case Studies: A Collaboration Between Academe and Industry, SIA- 
M-ASA, 1998:151-157) describe un experimento en el que se estudió la calidad de huecos 
perforados en partes de aeronave de metal. Un indicador importante de la calidad de hueco es 
el “diámetro excedente”, que es la diferencia entre el diámetro poco perforado y el diámetro 
del hueco. Los diámetros excesivamente pequeños son mejores que los grandes. Suponga que 
se tiene interés en el efecto de la velocidad rotacional del taladro sobre el diámetro excesivo 
del hueco. Se perforarán huecos en seis artículos de prueba (cupones), con tres velocidades: 
6 000, 10 000 y 15 000 rpm. Al diámetro excedente puede afectarlo no sólo la velocidad del 
taladro, sino también las propiedades físicas del cupón de prueba. Describa un diseño adecua- 
do para este experimento. 


Solución 

Un diseño de bloques completamente aleatorios es adecuado, con la velocidad del taladro co- 
mo el factor de tratamiento y el cupón de prueba como el factor bloqueado. Debido a que se 
pueden hacer seis observaciones en cada bloque, cada velocidad de taladro se debe usar dos 
veces en cada bloque. El orden de las velocidades dentro de cada bloque debe elegirse en for- 
ma aleatoria. 


El diseño sugerido en el ejemplo 9.20 ha sido adoptado y se ha realizado el experimento. A 
continuación se presenta el resultado de MINITAB. ¿El resultado indica alguna violación de 
los supuestos necesarios? ¿Qué concluye respecto al efecto de la velocidad del taladro sobre 
el diámetro excedente? 


Two-way ANOVA: Excess Diameter versus Block, Speed 


Source DF SS MS F Pp 
Block 5 0.20156 0.0403117 1.08 0.404 
Speed 2 0.07835 0.0391750 1.05 0.370 
Interaction 10 0.16272 0.0162717 0.44 0.909 
Error 18 0.67105 0.0372806 

Total 35 1.11368 

S= 0.1931 R-Sq = 39.74% R-Sqladj) = 0.00% 
Solución 


En un diseño de bloques completamente aleatorios no debe haber interacción entre el factor 
de tratamiento y el factor bloqueado, por lo que puede interpretarse el efecto principal del fac- 
tor de tratamiento. El P-valor para las interacciones es 0.909, que es compatible con la hipó- 
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tesis de no interacciones. Por tanto, no hay señal en el resultado de alguna violación de los 
supuestos. El P-valor para el efecto principal de la velocidad es 0.370, que no es pequeño. Por 
tanto, no se puede concluir que al diámetro excedente de hueco lo haya afectado la velocidad 
de taladro. 


El ejemplo 9.22 muestra un diseño apareado (véase la sección 6.8), en el cual se utili- 
za una prueba £ para comparar dos medias poblacionales, es un caso especial de un diseño de 
bloques aleatorios. 


Un fabricante de neumáticos quiere comparar el desgaste del dibujo de neumáticos hechos 
con un material nuevo con el de los hechos con material convencional. Hay diez neumáticos 
de cada tipo. Cada neumático será montado sobre la rueda frontal de un automóvil de trac- 
ción delantera y conducido durante 40 000 millas. Para cada neumático se medirá el desgas- 
te de la huella. Describa un diseño adecuado para este experimento. 


Solución 

La respuesta es el desgaste de la huella después de 40 000 millas. Hay un factor de interés: el 
tipo de neumático. Debido a que los automóviles podrían diferir en las cantidades de desgas- 
te que producen, el automóvil también es un factor, pero su efecto carece de interés. Un dise- 
ño de bloques completamente aleatorios es adecuado, en el cual un neumático de cada tipo es 
montado sobre las ruedas de cada automóvil. 


Puede observar que el diseño de bloques completamente aleatorios en el ejemplo 9.22 
es el mismo que se usa cuando compara dos medias poblacionales con una prueba apareada 
t, como se analiza en la sección 6.8. El diseño apareado descrito ahí es un caso especial de un 
diseño de bloques completamente aleatorios, en el cual el factor de tratamiento tiene sólo dos 
niveles y cada uno sale una vez en cada bloque. En efecto, un análisis de varianza de dos sen- 
tidos aplicado a los datos de tal diseño equivale a la prueba £ apareada. 


Comparaciones múltiples en diseños 
de bloques completamente aleatorios 


Una vez que se ha construido un ANOVA, entonces si la prueba F' muestra que el tratamien- 
to de los efectos principales no es el mismo, se puede utilizar un método de comparaciones 
múltiples para determinar cuáles pares de efectos difieren. Se describe el método de Tukey, 
que es un caso especial del método de Tukey-Kramer descrito en la sección 9.2. Se usan los 
grados de libertad y la media cuadrática, que son diferentes si cada tratamiento aparece sólo 
una vez, o más de una vez, en cada bloque. 
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Método de Tukey para comparaciones múltiples en diseños de bloques 
completamente aleatorios 

En un diseño de bloques completamente aleatorios, con / niveles de tratamiento, J ni- 
veles de bloque, y efectos principales de tratamiento 0%... 0: 


El Si cada tratamiento aparece sólo una vez en cada bloque, entonces la hipótesis nu- 
la HB, : A, — 0 = 0 se rechaza con un nivel de (Y para cada par de tratamientos i y 
j para el cual 


MSAB 
J 


IX; > Xi; > 01. (1-1(J-1),0 


donde MSAB representa la media cuadrática para la interacción. 


El Si cada tratamiento aparece K > 1 veces en cada bloque, entonces la hipótesis nu- 
la H, : 0, — 04 = 0 se rechaza con un nivel de o: para cada par de tratamientos i y / 
para el cual 


MSE 


IX. —X 1 > 91100 TK 


donde MSE constituye la media cuadrática del error. 


Para mayor información acerca de los diseños de bloques aleatorios se puede consultar 
un texto acerca del diseño de experimentos, como Montgomery (2001a). 


Ejercicios para la sección 9.4 


1. El artículo “Methods for Evaluation of Easily-Reducible Iron and Manganese in Paddy Soils” (M. Borges, J. de Mello y cols., 
en Communication in Soil Science and Plant Analysis, 2001:3009-3022) describe un experimento en el cual se midieron los ni- 
veles de pH de suelo aluvial. Se aplicaron diferentes niveles de abono a cada suelo. El interés principal se centra en las dife- 
rencias entre los suelos, no hay mucho interés en el efecto del abono. Los resultados se presentan en la tabla siguiente. 


Nivel de abono 


Tierra 1 2 3 4 5 
A 5.8 5.9 6.1 6.7 el 
B 5.2 5.7 6.0 6.4 6.8 
C 5.5 6.0 6.2 6.7 7.0 
D 6.0 6.6 6.7 6.7 JE) 


a) ¿Cuáles son los factores de bloqueado y de tratamiento? 


b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
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c) ¿Puede concluir qué suelo tiene niveles diferentes de pH? 


d) ¿Cuáles pares de suelos, si hay, puede concluir que tienen diferentes niveles de pH? Utilice un nivel de 5%. 


2. Se hizo un estudio para ver cuál de las cuatro máquinas realiza más rápido cierta tarea. Hay tres operarios; cada uno realiza 
la tarea dos veces sobre cada máquina. Se emplea un diseño de bloques aleatorios. A continuación se muestra el resultado de 
MINITAB. 


Source DF SS MS F P 
Machine (1) 257.678 (11) (111) 0.021 
Block (iv) 592.428 (v) (vi) 0.000 
Interaction (vii) (viii) 9) 09) 0.933 
Error (x1) 215.836 17.986 

Total (x11) 1096.646 


a) Complete los números que faltan del (1) al (xii) en el resultado. 
b) ¿El resultado indica que se satisfacen los supuestos para el diseño de bloque aleatorios? Explique. 


c) ¿Puede concluir que hay diferencias entre las máquinas? Explique. 


3. Se realizó un experimento para determinar el efecto de la concentración del caldo en la producción de cierto microorganismo. 
Fueron cuatro formulaciones diferentes y tres diferentes concentraciones de caldo. Hubo tres réplicas para cada combinación 
de la formulación de caldo y de la concentración, cuyo resultado se expresa en ml. La formulación de caldo es un factor blo- 
queado; el único efecto importante es el efecto de la concentración. Se calcularon las siguientes sumas de los cuadrados: suma 
de los cuadrados para bloques = 504.7, suma de los cuadrados para tratamientos = 756.7, suma de los cuadrados para las in- 
teracciones = 415.3, suma total de los cuadrados = 3 486.1. 


a) Construya una tabla ANOVA. Puede dar rangos para los P-valores. 
b) ¿Los supuestos para un diseño de bloques completamente aleatorios se satisfacen? Explique. 


c) ¿La tabla ANOVA proporciona pruebas de que la concentración de caldo afecta la producción? Explique. 


4. Se está considerando emplear tres máquinas diferentes para terminar cierta tarea. Cuatro operarios terminan la tarea sobre ca- 
da una de las tres máquinas, cada operario repite la tarea dos veces. El resultado es el tiempo en minutos necesario para termi- 
nar la tarea. El único efecto de interés es la máquina; el operario es un factor bloqueado. Se calcularon las siguientes sumas de 
los cuadrados: suma de los cuadrados para bloques = 48.47, suma de los cuadrados para tratamientos = 30.83, suma de los 
cuadrados para las interacciones = 93.27, suma total de los cuadrados = 217.36. 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Los supuestos para diseño de bloques completamente aleatorios se satisfacen? Explique. 


c) ¿La tabla ANOVA proporciona pruebas de que la media del tiempo de terminación difiere entre las máquinas? Explique. 


5. El artículo “Genotype-Environment Interactions and Phenotypic Stability Analyses of Linseed in Ethiopia” (W. Adguna y 
M. Labuschagne, en Plant Breeding. 2002:66-71) describe un estudio en que se compararon las producciones de semillas 
de diez variedades de linaza. Cada variedad fue cultivada en seis parcelas diferentes. Las cosechas, en kilogramos por hec- 
tárea, se presentan en la tabla ubicada en la parte superior de la página siguiente. 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) ¿Puede concluir que las variedades tienen diferentes medias de producción? 
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Parcela 
Variedad 1 2 3 4 5 6 
A 2032 1377 1343 1366 1276 1209 
B 1815 1126 1338 1188 1566 1454 
Cc 1739 1311 1340 1250 1473 1617 
D 1812 1313 1044 1245 1090 1280 
E 1781 1271 1308 1220 1371 1361 
F 1703 1089 1256 1385 1079 1318 
G 1476 1333 1162 1363 1056 1096 
H 1745 1308 1190 1269 1251 1325 
l 1679 1216 1326 1271 1506 1368 
J 1903 1382 1373 1609 1396 1366 


6. El artículo “Sprinkler Technologies, Soil Infiltration, and Runoff” (D. DeBoer y S. Chu, en Journal of Irrigation and Draina- 
ge Engineering, 2001:234-239) presenta un estudio de la profundidad de corriente (en mm) para varios tipos de aspersor. Se 
probó cada uno de cuatro aspersores cada cuatro días, con dos réplicas por día (hubo tres réplicas en algunos de días; éstas se 
omiten). Reviste interés determinar si la profundidad de corriente varía con el tipo de aspersor; la variación de un día a otro ca- 
rece de interés. Los datos se presentan en la tabla siguiente. 


Aspersor Día 1 Día 2 Día 3 Día 4 
A 8.3 5.5 7.8 4.5 10.7 9.8 10.6 6.6 
B 6.5 9.5 3.7 3.6 7.7 10.6 3.6 6.7 
C 1.8 1.2 0.5 0.3 17” 1,9 2.2 2.1 
D 0.7 0.8 0.1 0.5 0.1 0.5 0.3 0.5 


a) Identifique el factor bloqueado y el factor de tratamiento. 

b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 

c) ¿Los supuestos de un diseño de bloques completamente aleatorios se satisfacen? Explique. 

d) ¿Puede concluir que hay diferencias en la media de la profundidad de corriente entre algunos pares de aspersores? Explique. 


e) ¿Qué pares de aspersores, si hay, puede concluir, con un nivel de 5%, que tienen diferente media de profundidades de corriente? 


7. El artículo “Bromate Surveys in French Drinking Waterworks” (B. Legube, B. Parinet y cols., en Ozone Science and Enginee- 
ring, 2002:293-304) presenta mediciones de las concentraciones de bromina (en ug/L) en algunas centrales de abastecimiento 
de agua. Las mediciones hechas 15 veces diferentes en cada una de cuatro centrales de abastecimiento de agua se presentan en 
la tabla siguiente. (El artículo también presentó algunas mediciones adicionales hechas en algunas otras centrales de abasteci- 
miento de agua.) Es de interés determinar si las concentraciones de bromina varían entre las centrales de abastecimiento de 
agua; no lo es determinar si las concentraciones varían con el tiempo. 


Centrales de 


abastecimiento Tiempo 
de agua 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
A 29 9 7 35 40 53 38 38 41 34 42 35 38 35 36 
B 24 29 21 24 20 25 15 14 8 12 14 35 32 38 33 
C 25 17 20 24 19 19 17 23 22 27 17 33 33 39 37 
D 31 37 34 30 39 41 34 34 29 33 33 34 16 31 16 
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10. 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Puede concluir que la concentración de bromina varía entre las centrales de abastecimiento de agua? 


Cc) ¿Qué pares de las centrales de abastecimiento de agua, si hay, puede concluir, con un nivel de 5%, que tienen concentracio- 
nes de bromina diferentes? 


d) Alguien sugiere que estos datos se analizaran con un ANOVA de un sentido, ignorando el factor de tiempo, con 15 observa- 
ciones para cada una de las cuatro centrales de abastecimiento de agua. ¿La tabla ANOVA soporta esta sugerencia? Explique. 


. El artículo “Application of Fluorescence Technique for Rapid Identification of IOM Fractions in Source Waters” (T. Marhaba 


y R. Lippincott, en Journal of Environmental Engineering, 2000:1039-1044) presenta mediciones de las concentraciones de 
carbono orgánico disuelto (en mg/L) en seis ubicaciones (A, B, C, D, E, FE) a lo largo del río Millstone, en el centro de Nueva 
Jersey. Las mediciones se tomaron cuatro veces al año: enero, abril, julio y octubre. Es de interés determinar si las concentra- 
ciones varían entre las ubicaciones. Los datos se presentan en la tabla siguiente. 


Enero Abril Julio Octubre 
A 3.9 37 37 4.1 
B 4.0 ES) 3.4 5.7 
Cc 4.2 3.4 3.0 4.8 
D 4.1 3.3 2.9 4.6 
E 4.1 3.4 3.0 3.4 
F 4.2 3.5 2.8 4.7 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Puede concluir que la concentración varía entre las ubicaciones? 


Cc) ¿Qué pares de ubicaciones, si hay, puede concluir, con un nivel de 5%, que tienen concentraciones diferentes? 


. Le han dado la tarea de diseñar un estudio con respecto a los tiempos de vida de cinco tipos diferentes de motor eléctrico. La 


pregunta inicial que debe responderse es si hay diferencias en la media de vida entre los cinco tipos. Hay 20 motores, cuatro 
de cada tipo, disponibles para la prueba. Se puede probar un máximo de cinco motores todos los días. La temperatura ambien- 
tal es diferente día tras día, esto último puede afectar la vida del motor. 


a) Describa cómo elegiría los cinco motores para hacer pruebas todos los días. ¿Usaría un diseño completamente aleatorio? 
¿Usaría cualquier aleatorización en todo? 


b) Si X; representa la vida media medida de un motor del tipo ¡ probada un día j, exprese el estadístico de prueba para probar 
la hipótesis nula de tiempos de vida iguales en función del X. 


Una catedrática de ingeniería quiere determinar qué tema encuentran sus alumnos más difícil entre estadística, física y quími- 
ca. Obtiene la calificación del examen final para cuatro estudiantes que tomaron tres cursos el último semestre y quienes esta- 
ban en las mismas secciones de cada clase. Los resultados se presentan en la tabla siguiente. 


Estudiante 
Curso 1 2 3 4 
Estadística 82 94 78 70 
Física 75 70 81 83 
Química 93 82 80 70 


a) La catedrática propone un diseño de bloques completamente aleatorios, con los estudiantes como los bloques. Dé una ra- 
zón de que es probable que no sea adecuado. 


b) Describa las características de los datos en la tabla anterior que indican que no se cumplen los supuestos del diseño de blo- 
ques completamente aleatorios. 
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9.5 Experimentos factoriales 2? 


Cuando un experimentador quiere estudiar varios factores simultáneamente, el número de di- 
ferentes tratamientos puede ser muy grande. En estos casos, con frecuencia los experimentos 
preliminares se realizan en cada factor que tiene sólo dos niveles. Se diseña un nivel como el 
nivel “alto”, y se diseña otro como el nivel “bajo”. Si hay p factores, entonces hay 2” trata- 
mientos diferentes. Tales experimentos se llaman experimentos factoriales 2”. Con frecuen- 
cia, el propósito de un experimento de este tipo es determinar qué factores tienen un efecto 
importante sobre el resultado. Una vez que se han determinado, se pueden realizar experimen- 
tos más elaborados, en los cuales los factores que son importantes varían en algunos niveles. 
Se iniciará por describir los experimentos factoriales 7 


Notación para los experimentos factoriales 2* 


En experimentos factoriales Pa hay tres factores y 2% = 8 tratamientos. El efecto principal de 
un factor se define como la diferencia entre la respuesta media cuando el factor está en su ni- 
vel alto y la respuesta media cuando el factor está en su nivel bajo. Es común denotar los efec- 
tos principales por A, B y C como con cualquier experimento factorial, puede haber 
interacciones entre los factores. Con tres factores hay tres interacciones de dos sentidos, una 
para cada par de factores, y una interacción de tres sentidos. Las interacciones de dos senti- 
dos por AB, AC y BC, y la interacción de tres sentidos se denota con ABC. Los tratamientos 
se denotan tradicionalmente con letras minúsculas, con una letra que indica que un factor es- 
tá en su nivel alto. Por ejemplo, ab denota el tratamiento en el que los primeros dos factores 
están en su nivel alto y el tercer factor en su nivel bajo. El símbolo “1” se utiliza para deno- 
tar el tratamiento en el que todos los factores están a sus niveles bajos. 


Estimación de los efectos en un experimento factorial 2* 


Suponga que hay K réplicas para cada tratamiento en un experimento factorial 2. Para cada 
tratamiento, la media de la celda representa el promedio de las K observaciones para ese tra- 
tamiento. Las fórmulas para las estimaciones del efecto se pueden obtener fácilmente de la 
tabla de signos a que se presenta como la tabla 9.7 en la página 694. Los signos se colocan 
en la tabla como se indica a continuación. Para los efectos principales A, B, C el signo es + 
para los tratamientos en los que el factor está en su nivel alto, y — para los tratamientos don- 
de el factor está en su nivel bajo. En este contexto, para el efecto principal A, el signo es + 
para los tratamientos a, ab, ac y abc y — para el resto. Para las interacciones, los signos se 
calculan tomando el producto de los signos en las columnas de los efectos principales corres- 
pondientes. Por ejemplo, los signos para la interacción de dos sentidos AB son los productos 
de los signos en las columnas A y B, y los signos para la interacción de tres sentidos ABC son 
los productos de los signos en las columnas A y B y C. 

La estimación de los efectos principales y de las interacciones se hace empleando la ta- 
bla de los signos. Se muestra cómo estimar el efecto principal del factor A. El factor A está en 
su nivel alto en los renglones de la tabla donde hay un signo “+” en la columna A. Cada una 
de las medias de la celda X., Xq, X a. y Xq. es Una respuesta promedio para las corridas he- 
chas con el factor A como en su nivel alto. Se estima que la respuesta media para el factor A 
en su nivel alto es el promedio de estas medias de celda. 
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TABLA 9.7 Tabla de signos para un experimento factorial 2* 


Media de 
Tratamiento la celda A B Cc AB AC BC ABC 
1 Xi l 
a Xo 
b ón | 0 
ab X | 
C X. 
ac Xx, pe | 
be Ko | 
abc X abc + E a 
. ; , 1 
Respuesta media estimada para A en su nivel alto = qe aFXab + Xac + Xabc) 
De manera similar, cada renglón con signo “—” en la columna A representa un tratamiento 


con un factor A puesto en su nivel bajo. Se estima la respuesta media para el factor A en su 
nivel bajo como el promedio de las medias de celda en estos renglones. 


1 
Respuesta media estimada para A en su nivel bajo = ¿A I+X)+X.+Xbc) 


La estimación del efecto principal del factor A es la diferencia en la respuesta media estima- 
da entre sus niveles alto y bajo. 


] 1 
Efecto estimado de A = A +Xa—X»+Xap—X ¿+ Xac — Xbe + Xabc) 


La cantidad dentro de los paréntesis se llama contraste del factor A. Se calcula al sumar y 
restar las medias de celda, utilizando los signos en la columna adecuada de la tabla de signos. 
Observe que el número de signos “más” es el mismo como el número de signos “menos”, por 
lo que la suma de los coeficientes es igual a O. La estimación del efecto se obtiene al dividir 
el contraste entre la mitad del número de los tratamientos, que es 2/72, o 4. Las estimaciones 
de otros efectos principales y las interacciones se calculan en una forma similar. Para ilustrar 
lo anterior se presentan las estimaciones del efecto para el efecto principal C y la interacción 
de dos sentidos AB: 


1 
Estimación de efecto C = q X1i—Xoa—Xp—Xap + Xo + Xac + Xpc + Xapc) 


eionás ld 1 
Estimación de la interacción AB = ¿A —Xa—=Xp+Xa + Xo— Xac — Xbc + Xabc) 
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El contraste para cualquier efecto principal o interacción se obtiene mediante la suma 
y resta de las medias de la celda, así como utilizando los signos en la columna adecua- 
da de la tabla de signos. 


Para un experimento factorial Te 


a (9.65) 


Efecto estimado = 


Se realizó un experimento factorial 2* para calcular los efectos de tres factores en la produc- 
ción de una reacción química. Los factores fueron A: concentración de catalizador (bajo o al- 
to), B: reactivo (formulación usual o nueva formulación), y C: tasa de agitación (lenta o 
rápida). Se obtuvieron tres réplicas para cada tratamiento. Las producciones se presentan en 
la tabla siguiente y se miden como un porcentaje de un máximo teórico. Estime todos los 
efectos y las interacciones. 


Tratamiento Producción Media de la celda 


1 71.67 70.55 67.40 69.8733 
a 78.46 75.42 81.77 78.5500 
b 77.14 78.25 78.33 77.9067 
ab 79.72 76.17 78.41 78.1000 
C 72.65 71.03 73.54 72.4067 
ac 80.10 73.91 74.81 76.2733 
be 80.20 73.49 74.86 76.1833 
abc 75.58 80.28 71.64 75.8333 


Solución 

Mediante la tabla de signos (tabla 9.7) se determinan las sumas adecuadas y las diferencias 
de las medias de celda. Se presentan los cálculos para el efecto principal A, la interacción de 
dos sentidos BC, y la interacción de tres sentidos ABC: 


1 
Estimación de efecto A = 4509.8733 + 78.5500 — 77.9067 + 78.1000 
— 72.4067 + 76.2733 — 76.1833 + 75.8333) = 3.0967 


io Ñ 1 
Interacción estimada BC = GT + 78.5500 — 77.9067 — 78.1000 
— 72.4067 — 76.2733 + 76.1833 4 75.8333) = —1.0617 


1 
Interacción estimada ABC = 46-69.8733 + 78.5500 + 77.9067 — 78.1000 
+ 72.4067 — 76.2733 — 76.1833 + 75.8333) = 1.0667 
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En la tabla siguiente se presentan todos los efectos estimados, redondeados con la misma pre- 
cisión que los datos: 


Variable Efecto 
A 3.10 
B 2:19 
€ 0.93 
AB 3.18 
AC 1.34 
BC —1.06 
ABC 1.07 


Para cada efecto se puede probar la hipótesis nula de que el efecto es igual a O. Cuan- 
do ésta es rechazada se tiene evidencia de que los factores implicados afectan en realidad el 
resultado. Para probar estas hipótesis nulas se construye una tabla ANOVA que contiene las 
sumas de los cuadrados adecuadas. Las pruebas que se presentan serán válidas si el número 
de réplicas es para cada tratamiento y deber ser al menos 2. Además, las observaciones en ca- 
da tratamiento deben constituir una muestra aleatoria de una población normal, y todas las po- 
blaciones deben tener la misma varianza. 

Se calcula la suma de los cuadrados del error (SSE) al sumar las sumas de las desvia- 
ciones al cuadrado de las medias muestrales para todos los tratamientos. Con el fin de expre- 
sar esto en una ecuación, sean si, Ed S% las variancias muestrales de las observaciones en 
cada uno de los ocho tratamientos, y K el número de réplicas por tratamiento. Entonces 


8 
SSE = (K — 1) Ds? (9.66) 


i=1 


Cada efecto principal e interacción también tienen su propia suma de los cuadrados. Éstas son 
fáciles calcular. La suma de los cuadrados para cualquier efecto o interacción se calcula ele- 
vando al cuadrado su contraste, multiplicando por el número de réplicas K, y dividiendo en- 
tre el número total de tratamientos: 2% = 8. 


K(contraste)? 


8 (9.67) 


Suma de los cuadrados para un efecto = 


Cuando se utiliza la ecuación (9.67) es mejor conservar, en tanto sea posible, los mismos dí- 
gitos que en las estimaciones de los efectos con el fin de obtener la máxima precisión en la 
suma de los cuadrados. Para la presentación en una tabla, las estimaciones de los efectos y las 
sumas de los cuadrados se pueden redondear con la misma precisión que los datos. 

Las sumas de los cuadrados para los efectos y las interacciones tienen un grado de li- 
bertad cada una. La suma de los cuadrados del error tiene 8(K — 1) grados de libertad. El mé- 
todo para calcular la media cuadrática y el estadístico F es el mismo que el que se presentó 
en la sección 9.3 para una tabla ANOVA de dos sentidos. Cada media cuadrática es igual a su 
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suma de los cuadrados dividida entre sus grados de libertad. El estadístico de prueba para pro- 
bar la hipótesis nula de que un efecto o interacción es igual a O se calcula dividiendo la me- 
dia cuadrática para la estimación del efecto entre la media cuadrática para el error. Cuando la 
hipótesis nula es verdadera, el estadístico de prueba tiene una distribución F, gx — 1) 


Con referencia al ejemplo 9.23, construya una tabla ANOVA. Respecto a cada efecto e inter- 
acción pruebe la hipótesis nula de que es igual a O. ¿Cuáles factores, si hay, parecen más pro- 
bables de tener un efecto en el resultado? 


Solución 

La tabla ANOVA se muestra a continuación. Las sumas de los cuadrados para los efectos y 
las interacciones se calcularon utilizando la ecuación (9.67). La suma de los cuadrados del 
error fue calculada aplicando la ecuación (9.66) a los datos del ejemplo 9.23. Cada estadísti- 
co F es el cociente de la media cuadrática con la media cuadrática del error. Cada estadístico 
F tiene 1 y 16 grados de libertad. 


Suma de Media 
Fuente Efecto cuadrados gl cuadrática F P 
A 3.10 57.54 1 57.54 7.34 0.015 
B 2.73 44.72 1 44.72 5.70 0.030 
C 0.93 3:23 1 5.23 0.67 0.426 
AB -3.18 60.48 1 60.48 7.71 0.013 
AC 1.34 10.75 1 10.75 1.37 0.259 
BC 1.06 6.76 1 6.76 0.86 0.367 
ABC 1.07 6.83 1 6.83 0.87 0.365 
Error 125.48 16 7.84 
Total 317.78 23 


Los efectos principales de los factores A y B, así como la interacción de AB, tienen P- 
valores bastante pequeños. Ello indica que estos efectos no son iguales a O y que los factores 
A y B afectan el resultado. No hay evidencias de que el efecto principal o factor C, o alguna 
de sus interacciones, difieran de O. Experimentos adicionales se podrían concentrar en los fac- 
tores A y B. Quizá se realizaría un ANOVA de dos sentidos, con cada uno de los factores A y 
B evaluados en diferentes niveles, para obtener información más detallada acerca de sus efec- 
tos en el resultado. 


Interpretación del resultado computacional 

En la práctica, los análisis de diseños factoriales se realizan generalmente en una computado- 
ra, utilizando un software como MINITAB. El siguiente resultado de MINITAB presenta los 
resultados del análisis descrito en los ejemplos 9.23 y 9.24. 
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Factorial Fit: Vield versus A, B, € 


Estimated Effects and Coefficients for Yield (coded units) 


Term Effect Coef SE Coef T Pp 
Constant 75.641 0.5716 132.33 0.000 
A 3.097 1.548 0.5716 2.71 0.015 
B 2.730 1.365 0.5716 2.39 0.030 
€ -0.933 -0.467 0.5716 -0.82 0.426 
A*B -3.175 -1.587 0.5716 -2.78 0.013 
A*C -1.338 -0.669 0.5716 1,17 0.259 
BxC -1.062 -0.531 0.5716 -0.93 0.367 
Ax*Bx*C 1.067 0.533 0.5716 0.93 0.365 
Ss = 2.80040 R-Sq = 60.51% R-Sqladj) = 43.24% 
Analysis of Variance for Yield (coded units) 
Source DF Seg SS Adj SS  Adj MS F Pp 
Main Effects 3 107.480 107.480 35.827 4.57 0.017 
2-Way Interactions 3 717.993 717.993 25.998 3.32 0.047 
3-Way Interactions 1 6.827 6.827 6.827 0.87 0.365 
Residual Error 16 125.476 125.476 7.842 

Pure Error 16 125.476 125.476 7.842 
Total 23 317.776 


La tabla en la parte superior del resultado de MINITAB presenta las estimaciones de los 
efectos y coeficientes. La frase “coded units” significa que se usan los valores 1 y —1 en lu- 
gar de los valores verdaderos y con ellos se representan los niveles altos y bajos de cada fac- 
tor. Los efectos estimados se listan en la columna “Effect”. En la columna siguiente están las 
estimaciones de los coeficientes, cada una de las cuales es igual a la mitad del efecto corres- 
pondiente. Mientras que el efecto representa la diferencia en la respuesta media entre los ni- 
veles altos y bajos de un factor, el coeficiente representa la diferencia entre la respuesta media 
al nivel alto y la respuesta de la gran media, que es cuando mucho de la mitad. El coeficien- 
te “Constant” es la media de todas las observaciones; es decir, es la gran media muestral. Ca- 
da estimación del coeficiente tiene la misma desviación estándar, ello se muestra en la 
columna “SECoef”. 

MINITTAB usa el estadístico £ de Student, en lugar del estadístico F, para probar las hi- 
pótesis de que los efectos son iguales cero. La columna “T” presenta el valor del estadístico 
t de Student, que es igual al cociente de la estimación del coeficiente (Coef) y su desviación 
estándar. Bajo la hipótesis nula, el estadístico f tiene la distribución £ de Student con 2(K — 1) 
grados de libertad. Los P-valores se presentan en la columna “P”. La prueba f que realiza MI- 
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NITAB equivale a la prueba F descrita en el ejemplo 9.24. El estadístico f(x - ,, Se puede cal- 
cular tomando la raíz cuadrada del estadístico F| gx — ¡, y aplicando el signo de la estimación 
del efecto. Los P-valores son idénticos. 

A continuación se tratará el análisis de la tabla de varianza. La columna “DF” presenta 
los grados de libertad. Las columnas “SegSS” (suma de los cuadrados secuencial) y “AdjSS” 
(suma de los cuadrados ajustada) serán idénticas en todos los ejemplos que se considerarán y 
que contendrán sumas de los cuadrados. La columna “Adj MS” contiene medias cuadráticas, 
o sumas de cuadrados divididas entre sus grados de libertad. Ahora se explicarán los renglo- 
nes que implican al error. El renglón “PureError” se refiere a la suma de los cuadrados del 
error (SSE) (ecuación 9.66). Hay 8(K — 1) = 16 grados de libertad (DF) para el error puro. 
La suma de los cuadrados para este último se encuentra en cada una de las siguientes dos co- 
lumnas, es la suma de los cuadrados del error (SSE). Bajo la columna “Adj MS” está la me- 
dia cuadrática para el error. El renglón arriba del renglón del error puro se denomina 
“Residual Error”. La suma de los cuadrados para el error de residuos es igual a la suma de 
cuadrados para el error puro, más las sumas de los cuadrados para cualquiera de los efectos 
principales o interacciones que no se incluyen en el modelo. Los grados de libertad por la su- 
ma de los cuadrados del error de residuos es igual a los grados de libertad para el error puro, 
más los grados de libertad (uno de cada uno) para cada efecto principal o interacción no in- 
cluidos en el modelo. Debido a que en este ejemplo todos los efectos principales e interaccio- 
nes están incluidos en el modelo, la suma de los cuadrados del error de residuos y sus grados 
de libertad son iguales a las cantidades correspondientes para el error puro. El renglón “To- 
tal” contiene la suma de los cuadrados (SST). La suma total de los cuadrados y sus grados de 
libertad son iguales a las sumas de las cantidades correspondientes para todos los efectos, las 
interacciones y el error de residuos. 

Yendo a la parte superior de la tabla, el primer renglón es “Main Effects”. Hay tres gra- 
dos de libertad para los efectos principales, porque hay tres efectos principales (4, B, y C) con 
un grado de libertad cada uno. La suma de los cuadrados secuencial es la suma de las sumas 
de los cuadrados para cada uno de los tres efectos principales. La media cuadrática (Adj MS) 
es la suma de los cuadrados dividida entre sus grados de libertad. La columna “F” presenta el 
estadístico F para probar la hipótesis nula de que todos los efectos principales son iguales al 
cero. El valor del estadístico F (4.57) es igual al cociente de la media cuadrática para los efec- 
tos principales (35.827) y la media cuadrática para el error (puro) (7.842). Los grados de li- 
bertad para el estadístico F son 3 y 16, por lo que corresponden a los grados de libertad para 
las dos medias cuadráticas. La columna “P” presenta el P-valor para la prueba F. En este ca- 
so el P-valor es 0.017, que indica que no todos los efectos principales son cero. 

Los renglones “2-Way Interactions” y “3-Way Interactions” son similares al renglón pa- 
ra los efectos principales. El P-valor para las interacciones de dos sentidos es 0.047, que es 
una evidencia razonablemente fuerte de que al menos algo de las interacciones de dos senti- 
dos no es igual a cero. Debido a que sólo hay una interacción de tres sentidos (A x B x C), el 
P-valor en el renglón “3-Way Interactions” es igual (0.365) como el P-valor en la tabla en la 
parte superior del resultado de MINITAB para A x B = C. 

Recuerde que las pruebas de hipótesis se realizan bajo el supuesto de que todas las ob- 
servaciones tienen la misma desviación estándar a. La cantidad “S” es la estimación de dr y 
es igual a la raíz cuadrada de la media al cuadrado del error (MSE). Las cantidades “R-sq” y 
“R-sq(adj)” son los coeficientes de determinación R? y del Re ajustado, respectivamente, y se 
calculan con métodos similares a los del ANOVA de un sentido. 
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Estimación de efectos en un experimento factorial 2? 


Mediante una tabla de signos se pueden obtener las fórmulas para calcular las estimaciones 
del efecto en cualquier experimento factorial 2”. El método es similar al caso 2%, los trata- 
mientos están listados en una columna. El signo para cualquier efecto principal es + en los 
renglones que corresponden a los tratamientos donde el factor está en su nivel alto, y — en ren- 
glones que corresponden a los tratamientos donde el factor está en su nivel bajo. Los signos 
para las interacciones se encuentran al multiplicar los signos que corresponden a los factores 
en la interacción. La estimación para cualquier efecto o interacción se encuentra sumando y 
restando las medias de celda para los tratamientos, utilizando los signos en las columnas ade- 
cuadas, para calcular un contraste. El contraste es dividido entre la mitad del número de tra- 
tamientos, o 2? a y obtener así la estimación del efecto. 


Para un experimento factorial 2”: 


contraste (9.68) 


Efecto estimado = - 
29 1 


Como ejemplo, la tabla 9.8 presenta una tabla de signos para un experimento factorial 2*. Se 
enlistan los signos para los efectos principales y las interacciones seleccionadas. 

Las sumas de cuadrados se calculan con un método similar al del experimento 2*. Para 
calcular la suma de los cuadrados de error (SSE), sean s;, .. ., S7 las variancias de muestra 
de las observaciones en cada uno de los 2” tratamientos. Entonces 

2P 

SSE = (K — DY 5 

¡=1 
Los grados de libertad para el error son 2((K — 1), dónde K es el número de réplicas por tra- 
tamiento. La suma de los cuadrados para cada efecto e interacción es igual al cuadrado del 
contraste, multiplicado por el número de réplicas K y dividido entre el número de tratamien- 
tos 2”. Las sumas de los cuadrados para los efectos y las interacciones tienen un grado de li- 
bertad cada una. 


K(contraste)? 
7? 

Los estadísticos F para los efectos principales y las interacciones se calculan dividiendo la su- 

ma de los cuadrados para el efecto entre la media cuadrática para el error. La distribución nu- 

la del estadístico F es F| zu — 1) 


Suma de los cuadrados para un efecto = (9.69) 


Experimentos factoriales sin réplica 


Cuando el número de p factores es grande con frecuencia no es viable realizar más de una ré- 
plica por cada tratamiento. En este caso no es posible calcular SSE, por lo que las pruebas de 
hipótesis antes descritas no se pueden efectuar. Si es razonable suponer que algunas de las in- 
teracciones de más alto-orden sean iguales a O, entonces las sumas de los cuadrados para esas 
interacciones pueden sumarse y tratarse de la misma manera que una suma de los cuadrados 
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del error. Entonces los efectos principales y las interacciones de orden más bajo se pueden 
probar. 


TABLA 9.8 Tabla de signos para los efectos principales e interacciones seleccionadas 
para un experimento factorial 2* 


Tratamiento A B C D E AB CDE ABDE ABCDE 


Mediante un experimento factorial 2? se estimaron los efectos de cinco factores en la calidad 
de focos fabricados por cierto proceso. Los factores eran A: planta (1 o 2), B: tipo de máqui- 
na (velocidad baja o alta), C: turno (día o noche), D: material del alambre de plomo (usado o 
nuevo) y E: método de cargar materiales en el ensamblador (manual o automático). Se obtu- 
vo una réplica para cada tratamiento. La tabla 9.9 presenta los resultados. Calcule las estima- 
ciones de los efectos principales y las interacciones, y sus sumas de los cuadrados. Suponga 
que las interacciones de tercero, cuarto y quinto órdenes son despreciables, y haga las sumas 
de los cuadrados para utilizarlas como sustituto de una suma de los cuadrados del error. Uti- 
lice este sustituto para probar hipótesis referidas a los efectos principales y a las interaccio- 
nes de segundo orden. 
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TABLA 9.9 
Tratamiento Resultado || Tratamiento Resultado || Tratamiento Resultado || Tratamiento Resultado 
1 32.07 d 35.64 25.10 de 40.60 
a 39.27 ad 35.91 39.25 ade 3T.II 
b 34.81 bd 47.75 37.17 bde 47.22 
ab 43.07 abd 51.47 46.69 abde 56.87 
C 31:59 cd 33.16 32.55 cde 34.51 
ac 36.51 acd 35.32 32.56 acde 36.67 
bc 28.80 bed 48.26 28.99 bcde 45.15 
abc 43.05 abcd 53.28 48.92 abcde 48.72 

TABLA 9.10 

Variable Efecto Suma de cuadrados | Variable Efecto Suma de cuadrados 

A 6.33 320.05 ABD 0.29 0.67 

B 9.54 727.52 ABE 0.76 4.59 

E 2.07 34.16 ACD 0.11 0.088 

D 6.70 358.72 ACE —0.69 3.75 

E 0.58 2.66 ADE 0.45 1.60 

AB 2.84 64.52 BCD 0.76 4.67 

AC 0.18 0.27 BCE 0.82 5.43 

AD 3.39 91.67 BDE 2.17 37.63 

AE 0.60 2.83 CDE =1,25 12.48 

BC 0,49 1.95 ABCD 2.83 63.96 

BD 4.13 136.54 ABCE 0.39 1.22 

BE 0.65 3,42 ABDE 0.22 0.37 

CD 0.18 0.26 ACDE 0.18 0.24 

CE 0.81 3.23 BCDE 0.25 0.52 

DE 0.24 0.46 ABCDE =1.73 23.80 

ABC 1.35 14.47 

Solución 


Los efectos se calculan utilizando las reglas y al sumar y restar las observaciones dadas en la 
tabla de signos y las sumas de los cuadrados mediante la ecuación (9.69). Véase la tabla 9.10. 

Observe que ninguna de las interacciones de tercer, cuarto o quinto orden están entre 
los efectos mayores. Si alguna de ellas estuviera no sería inteligente combinar sus sumas de los 
cuadrados. En consecuencia, se suman las sumas de los cuadrados de las interacciones terce- 
ra, cuarta y quinta. Los resultados se presentan en el siguiente resultado de MINITAB. 


Factorial Fit: Response versus A, B, C, D, E 


Estimated Effects and Coefficients for 
Response (coded units) 


Term Effect Coef SE Coef T Pp 
Constant 39.658 0.5854 67.74 0.000 
A 6.325 3.163 0.5854 5.40 0.000 
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B 9.536 4.768 0.5854 8.14 0.000 

C -2.066 -1.033 0.5854 -1.76 0.097 

D 6.696 3.348 0.5854 5.72 0.000 

E 0.576 0.288 0.5854 0.49 0.629 

A*B 2.840 1.420 0.5854 2.43 0.027 

A*C 0.183 0.091 0.5854 0.16 0.878 

AxD -3.385 -1.693 0.5854 -2.89 0.011 

A*E 0.595 0.298 0.5854 0.51 0.618 

BxC -0.494 -0.247 0.5854 -0.42 0.679 

BxD 4.131 2.066 0.5854 3,53 0.003 

BxE 0.654 0.327 0.5854 0.56 0.584 

Cx*D -0.179 -0.089 0.5854 -0.15 0.881 

Cx*E -0.809 -0.404 0.5854 -0.69 0.500 

DxE 0.239 0.119 0.5854 0.20 0.841 

S = 3.31179 R-Sq = 90.89% R=-Sqíladj) = 82.34% 

Analysis of Variance for Response (coded units) 

Source DF. Seg SS Adj SS  Adj MS E Pp 
Main Effects 5 1443.1 1443.1 288.62 26.31 0.000 
2-Way Interactions 10 307.1 307.1 30.71 2.80 0.032 
Residual Error 16 17545 155 10.97 

Total 31  1925.7 


Las estimaciones no han cambiado para los efectos principales o las interacciones de 
dos sentidos. La suma de los cuadrados del error de residuos (175.5) en la tabla de análisis de va- 
rianza se encuentra al sumar los cuadrados para todas las interacciones de orden más alto que 
se eliminaron del modelo. El número de grados de libertad (16) es igual a la suma de los gra- 
dos de libertad (uno para cada uno) para las 16 interacciones de orden más alto. No hay nin- 
guna suma de los cuadrados del error puro (SSB), porque sólo hay una réplica por tratamiento. 
La suma de los cuadrados del error de residuos se utiliza como un sustituto de SSE para calcu- 
lar todas las cantidades que requieren una suma de los cuadrados del error. 

Se concluye del resultado que los factores A, B, y D probablemente afecten el resulta- 
do. También parece que lo hacen las interacciones entre algunos pares de estos factores. Po- 
dría ser adecuado planear experimentos adicionales concentrados en los factores A, B, y D. 


Uso de gráficas de probabilidad para detectar efectos grandes 


Un método informal, sugerido para ayudar a determinar cuáles de los efectos es grande, con- 
siste en trazar el efecto y la interacción estimados en una gráfica de probabilidad normal. Si, 
en efecto, ninguno de los factores afecta el resultado, entonces el efecto y la interacción esti- 
mados forman una muestra aleatoria simple de una población normal y se deben encontrar 
aproximadamente en una línea recta. En muchos casos, la mayoría de las estimaciones se en- 
contrarán aproximadamente en una recta, y unas pocas estarán lejos de la recta. Los efectos 
principales y las interacciones cuyas estimaciones se encuentran lejos de la recta tienen más 
probabilidad de ser importantes. La figura 9.13 presenta una gráfica de probabilidad normal 
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del efecto principal y la interacción estimada a partir de los datos del ejemplo 9.25. Es claro, 
a partir de la gráfica, que los efectos principales de los factores A, B y D, y las interacciones 
AB y BD, resaltan del resto. 
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FIGURA 9.13 Gráfica de probabilidad normal de las estimaciones del efecto de los datos 
del ejemplo 9.25. Los efectos principales de los factores A, B y D son mayores que el resto. 


Experimentos factoriales muy pequeños 


Cuando el número de los factores es grande tal vez no sea factible realizar incluso una répli- 
ca para cada tratamiento. En estos casos las observaciones pueden tomarse sólo para alguna 
fracción de los tratamientos. Si éstos se eligen correctamente, aun es posible obtener la infor- 
mación acerca de los factores. 

Cuando cada factor tiene dos niveles, la fracción debe ser siempre una potencia de 2; es 
decir, la mitad, un cuarto, etcétera. Un experimento en el que se usa la mitad de los tratamien- 
tos se llama media-réplica; si se usa un cuarto de los tratamientos, es un cuarto-réplica, et- 
cétera. Un experimento 2” de media-réplica con frecuencia se denota por 2””*, para indicar 
que mientras que hay p factores, solamente hay 2”? tratamientos que deben considerarse. De 
forma similar, un cuarto-réplica con frecuencia se denota mediante 22. Se concentrará la 
atención en experimentos de media-réplica. 

Se presenta un método para elegir un media-réplica de un experimento 2”. Tal experi- 
mento tendrá 16 tratamientos elegidos de los 32 en el experimento 2”. La elección de 16 tra- 
tamientos se inicia con una tabla de signos para un diseño 2* que indica los signos para los 
efectos principales y la interacción de más alto orden. Esto último se presenta en la tabla 9.11. 

La tabla 9.11 tiene el número correcto de tratamientos (16), pero sólo cuatro factores. 
Con el fin de transformarla para un diseño 2? de media-réplica, se debe presentar un quinto 
factor, E. Para hacer esto se reemplaza la interacción de más alto orden con E. Éste establece 
los signos para el efecto principal de £. Entonces en cada renglón donde el signo para E es 
+, se agrega la letra e al tratamiento. Esto indica que el factor E se establece en su nivel más 


9.5 Experimentos factoriales 2? 


TABLA 9.11 Tabla de signos para los efectos 
principales y para las interacciones de cuatro 
sentidos en un experimento factorial 2* 


Tratamiento A B C D ABCD 


abd 


bed 
abcd | 
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alto para ese tratamiento. Donde el signo de E es —, el factor E se establece en su nivel bajo. 
El diseño resultante se llama fracción principal del diseño 2*. La tabla 9.12 presenta los sig- 
nos para los efectos principales y las interacciones seleccionadas de este diseño. 


TABLA 9.12 Tabla de signos para los efectos principales y las interacciones 
seleccionadas para un experimento factorial 2* 


Tratamiento 


B Cc D E= ABCD AB CDE 


e 
a 

b 

C 

ace 
bce 
abc 
d 
ade 
bde 
abd 
cde 
acd 
bed 
abcde 


A 


ACDE 


[ri NI JA se A (ES E 


++ 
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Hay un precio que pagar por utilizar solamente la mitad de los tratamientos. Con este 
propósito, observe que en la tabla 9.12 la interacción AB tiene los mismos signos que la inte- 
racción CDE y la interacción ACDE tiene los mismos signos que el efecto principal B. Cuan- 
do dos efectos tienen los mismos signos, se dice que son seudónimos. En efecto, los efectos 
principales y las interacciones en una fracción media forman pares en los cuales cada miem- 
bro de la pareja es seudónimo del otro. Los pares de seudónimos para esta fracción media de 
diseño 2? son 


[A,BCDE) (B,ACDE) (C,ABDE) (D,ABCE) (E, ABCD) 
[AB,CDE) (AC,BDE) (AD,BCE) (AE,BCD) (BC,ADE) 
(BD, ACE) (BE,ACD) (CD,ABE) (CE,ABD) (DE, ABC) 


Cuando dos efectos son seudónimos sus estimaciones del efecto son las mismas, ya que 
implican los mismos signos. En efecto, cuando se utiliza la fracción principal de un diseño, 
la estimación de cualquier efecto representa la suma de ese efecto y de su seudónimo. Por tan- 
to, para la fracción principal de un diseño 2*, cada estimación del efecto principal representa 
realmente la suma del efecto principal más su interacción seudónima de cuatro sentidos, y ca- 
da estimación de la interacción de dos sentidos representa la suma de la interacción de dos 
sentidos más su interacción seudónima de tres sentidos. 

En muchos casos es razonable suponer que las interacciones de más alto orden son pe- 
queñas. En la media-réplica 2”, si las interacciones de cuatro sentidos son despreciables, la es- 
timación del efecto principal será exacta. Si además las interacciones de tres sentidos son 
despreciables, la estimación de la interacción de dos sentidos también es exacta. 

En un diseño fraccional sin replicación con frecuencia no hay ninguna buena manera de 
calcular una suma de los cuadrados del error; por tanto, ninguna forma rigurosa de probar las 
hipótesis de que los efectos sean iguales a O. En muchos casos, el propósito de un diseño frac- 
cional sólo es identificar algunos factores que parecen tener mayor impacto en el resultado. 
Esta información se puede utilizar para diseñar experimentos más elaborados con el fin de in- 
vestigar estos factores. Con este propósito puede ser suficiente sólo elegir aquellos factores 
cuyos efectos o interacciones de dos sentidos son inusitadamente grandes, sin realizar prue- 
bas de hipótesis. Esto último es posible enlistando las estimaciones en orden decreciente, y 
luego ver si hay algunos que sean notablemente mayores que el resto. Otro método es trazar 
las estimaciones del efecto y de la interacción en una gráfica de probabilidad normal, como 
se analizó previamente. 


En un sistema de emulsión de membrana líquida, una emulsión (fase interna) se dispersa en 
un medio externo líquido que contiene un contaminante. Éste se elimina del líquido externo 
mediante transferencia de masa en la emulsión. El escape de la fase interna ocurre cuando 
partes del material extraído se derraman en el líquido externo. En el artículo “Leakage and 
Swell in Emulsion Liquid Membrane Systems: Batch Experiments” (R. Pfeiffer, W. Navidi y 
A. Bunge, en Separation Science and Technology, 2003:519-539) se estudiaron los efectos de 
cinco factores para determinar el efecto sobre la fuga en cierto sistema. Los cinco factores 
fueron A: concentración del agente tensoactivo, B: concentración de hidróxido de litio de la 


fase interna, C: fase de membrana, D: fracción de volumen de fase interna y E: tasa de agita- 
ción de extracción del recipiente. Se utilizó un diseño 2% de media fracción. Los datos se pre- 
sentan en la tabla siguiente (en el experimento verdadero, cada punto en realidad representaba 
el promedio de dos mediciones). La fuga se mide en unidades porcentuales. Suponga que las 
interacciones de tercero, cuarto y quinto órdenes son despreciables. Estime los efectos prin- 
cipales y las interacciones de dos sentidos. ¿Cuáles, si hay, destacan por ser notablemente ma- 


yores que el resto? 


Tratamiento Fuga 


Tratamiento Fuga 
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Tratamiento Fuga 


Tratamiento Fuga 


Cc 0.35 
ace 0.075 
bce 7.31 
abc 0.080 


d 2.03 
ade 0.64 
bde 11.72 
abd 0.56 


cde 1.45 
acd 0.31 
bcd 1,33 
abcde 6.24 


e 0.61 

a 0.13 

b 223 

abe 0.095 
Solución 


Utilizando la tabla de signos (tabla 9.12) se calculan las estimaciones para los efectos princi- 


pales y las interacciones de dos sentidos, los cuales se muestran en la tabla siguiente. 


Variable Efecto Variable Efecto 
A 2.36 AE 1.15 
B 3.00 BC 0.20 
C 0.11 BD 0.86 
D 1.68 BE 2.65 
E 2.64 CD 1.30 
AB 1.54 CE 0.61 
AC 1.43 DE 1:32 
AD 0.17 


Observe que no se considera realizar cálculos para las sumas de los cuadrados para las esti- 
maciones, porque no se tiene SSE con el cual compararlos. Para determinar informalmente 
qué efectos pueden merecer investigación adicional, se clasifican las estimaciones en orden 
de sus valores absolutos: B: 3.00, BE: 2.65, E: 2.64, A: —2.36, D: 1.68, y así sucesivamente. 
Parece razonable decidir que hay bastante separación entre los efectos A y D; por tanto, se tie- 


ne que los factores A, B y E son probablemente los más importantes. 


Ejercicios para la sección 9.5 


1. Construya una tabla de signos para la fracción principal respecto de un diseño 2*. Después indique todos los pares de seudónimos. 


2. Dé un ejemplo de un experimento factorial en el cual la falla de aleatoriedad puede producir los resultados incorrectos. 


3. Un estudio en una planta piloto investigó los efectos de tres factores en la producción (en gramos) de monómero para la for- 
mulación adhesiva. Los tres factores fueron A: temperatura, B: nivel catalizador y C: tipo de catalizador. Los niveles de los fac- 
tores fueron A: 160-C(—1) y 180*C(+1); B: 20%(—1) y 40%(+1); C: distribuidor E(—1) y distribuidor J(+1). Se realizaron 


dos réplicas de un diseño factorial 2*, con los resultados que se presentan en la tabla siguiente. 
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Media de la 

A B C Producciones producción 
-1 -1 -1 58, 60 59 
1 -1 -1 74,70 72 
-1 1 -1 43,51 47 
1 1 -1 75, 73 74 
-1 -1 1 56, 60 58 
1 -1 1 74, 78 76 
-1 1 1 46, 44 45 
1 1 1 78, 80 79 


a) Calcule las estimaciones de los efectos principales y las interacciones, y la suma de los cuadrados y el P-valor para cada uno. 
b) ¿Cuáles efectos principales e interacciones son importantes? 


c) Las otras cosas siguen igual, ¿la media de la producción será más alta cuando la temperatura sea de 160%C o de 180%C? Ex- 
plique. 


4. El artículo “Efficient Pyruvate Production by a Multi-Vitamin Auxotroph of Torulopsis glabrata: Key Role and Optimization 
of Vitamin Levels” (Y. Li, J. Chen y cols., en Applied Microbiology and Biotechnology, 2001:680-685) investiga los efectos de 
los niveles de algunas vitaminas en un cultivo de células en la producción (en g/L) de piruvato, un ácido orgánico útil. Los da- 
tos en la tabla siguiente se presentan con dos réplicas de un diseño 2*. Los factores son A: el ácido nicotínico, B: tiamina y C: 
biotina. (Se han eliminado dos factores estadísticamente insignificantes. En el artículo, cada factor fue probado en cuatro nive- 
les; se han reducido éstos a dos.) 


Media de la 

A B C Producciones producción 
-1 -1 -1 0.55, 0.49 0.520 
1 -1 -1 0.60, 0.42 0.510 
-1 1 -1 0.37, 0.28 0.325 
1 1 -1 0.30, 0.28 0.290 
-1 -1 1 0.54, 0.54 0.540 
1 -1 1 0.54, 0.47 0.505 
-1 1 1 0.44, 0.33 0.385 
1 1 1 0.36, 0.20 0.280 


a) Calcule las estimaciones de los efectos principales y las interacciones, y la suma de los cuadrados y el P-valor para cada una. 
b) ¿Es adecuado el modelo aditivo? 


Cc) ¿Qué conclusiones acerca de los factores se pueden obtener de estos resultados? 


5. El artículo citado en el ejercicio 4 también investigó los efectos de los factores en el consumo de glucosa (en g/L). Se propor- 
ciona una sola medición para cada combinación de factores (en el artículo hubo cierta replicación). Los resultados se presen- 
tan en la tabla siguiente. 


A B Cc Consumo de glucosa 
-1 -1 -1 68.0 
1 -1 -1 Jald 
-1 1 -1 98.0 
1 1 -1 98.0 
-1 -1 1 74.0 
1 -1 1 77.0 
-1 1 1 97.0 
1 1 1 98.0 
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a) Calcule las estimaciones de los efectos principales y las interacciones. 
b) ¿Se puede calcular una suma de los cuadrados del error? Explique. 
c) ¿Alguna de las interacciones se encuentra entre los efectos mayores? Si es así, ¿cuál es? 


d) Suponga que se conoce de experiencias pasadas donde el modelo aditivo vale. Sume las sumas de los cuadrados para las in- 


teracciones, y utilice ese resultado en lugar de una suma de los cuadrados del error para probar las hipótesis de que los efec- 
tos principales sean iguales a 0. 


<= 


. Se diseñó y se construyó un decantador para la separación de sólidos de jabón de una suspensión con base de agua. El propó- 
sito del dispositivo es reducir el contenido de agua de la suspensión de jabón para que éste se pueda procesar aún más en ba- 
rras y el líquido (una solución salina) se pueda reutilizar. Se realizó un estudio preliminar en el que se variaron tres factores. 
Éstos fueron A: temperatura de la operación (medida en *C), B: tasa de circulación del dispositivo (medida como el tiempo de 
residencia, en segundos) y C: atasco de sólidos en el dispositivo (medido como el tiempo de residencia, en segundos). El re- 
sultado es la fracción sólida en la suspensión. El experimento se realizó una vez para cada combinación de factores. Los resul- 
tados se presentan en la tabla siguiente. 


Atasco de Fracción de 
Temperatura Circulación sólidos sólidos en 


(4) (B) (0) la suspensión 
50 170 150 33 
70 170 150 44 
50 300 150 47 
70 300 150 36 
50 170 500 51 
70 170 500 43 
50 300 500 54 
70 300 500 56 


a) Calcule las estimaciones de los efectos principales y de las interacciones. 
b) ¿Se puede calcular una suma de los cuadrados del error? Explique. 
c) ¿Alguna de las interacciones se encuentra entre los efectos mayores? Si es así, ¿cuál es? 


d) Alguien afirma que el modelo aditivo vale. ¿Los resultados tienden a respaldar esta declaración? Explique. 


. La medición de la resistencia de una placa cubierta con tungsteno que se utiliza en la fabricación de circuitos integrados pue- 
de estar afectada por varios factores, incluyendo A: cuál de los dos tipos de casete se utiliza para fijar la placa, B: si la placa es- 
tá cargada hacia arriba o sobre la parte inferior del casete, y C: si se utilizó la parte del frente o trasera de la estación del casete. 
Los datos de un experimento factorial 2? con una réplica se presentan en la tabla siguiente. (Basado en el artículo “Prometrix 
RS35e Gauge Study in Five Two-Level Factors and One Three-Level Factor”, J. Buckner, B. Chin y J. Henri, en Statistical Ca- 
se Studies for Industrial Process Improvement, SIAM-ASA, 1997:9-18.) 


A B C Resistencia (m0) 
1 1 1 85.04 
-1 -1 84.49 
-1 1 -1 82.15 
1 -1 86.37 
-1 -1 1 82.60 
= 1 85.14 
—1 1 1 82.87 
1 1 86.44 
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10. 


a) Calcule las estimaciones de los efectos principales y de las interacciones. 
b) ¿Se puede calcular una suma de los cuadrados del error? Explique. 


c) Trace las estimaciones en una gráfica de probabilidad normal. ¿La gráfica muestra que algunos de los factores influyen en 
la resistencia? Si es así, ¿cuál es? 


. En un diseño 2” con una réplica por tratamiento a veces ocurre que falta la observación para uno de los tratamientos, debido al 


error experimental o a alguna otra causa. Cuando esto último ocurre, un enfoque es reemplazar el valor faltante con el que tie- 
ne la interacción de más alto orden igual a O. Considere el ejercicio 7 y suponga que falta la observación para el tratamiento 
donde A, B y C están en su nivel bajo (—1). 


a) ¿Qué valor para esta observación hace que la interacción de tres sentidos sea igual a 0? 


b) Utilizando este valor, calcule las estimaciones para los efectos principales y las interacciones. 


. Las consideraciones de seguridad son importantes en el diseño de automóviles. El artículo “An Optimum Design Methodology 


Development Using a Statistical Technique for Vehicle Occupant Safety” (J. Hong, M. Mun, y S. Song, en Proceedings of the 
Institution of Mechanical Engineers, 2001:795-801) presenta los resultados de un estudio de simulación de un ocupante. La va- 
riable del resultado es la aceleración del pecho (en g) 3 ms después del impacto. Se consideraron cuatro factores. Éstos fueron 
A: característica de abertura de la bolsa de aire, B: tiempo en que se dispara el inflador de la bolsa de aire, C: tasa de flujo de 
masa del inflador de la bolsa de aire y D: relación de tensión-tirantez de espuma de rodilla. Los resultados (parte de un estu- 
dio mayor) se presentan en la tabla siguiente. Hay una réplica por tratamiento. 


Tratamiento Resultado || Tratamiento Resultado || Tratamiento Resultado |'Tratamiento Resultado 


1 85.2 C 66.0 d 85.0 cd 62.6 
a 79.2 ac 69.0 ad 82.0 acd 65.4 
b 84.3 be 68.5 bd 84.7 bed 66.3 
ab 89.0 abc 76.4 abd 82.2 abcd 69.0 


a) Calcule las estimaciones de los efectos principales y de las interacciones. 


b) Si usted fuera a diseñar un estudio de seguimiento, ¿en qué factor o factores se concentraría? Explique. 


El artículo estudio “Experimental Study of Workpiece-Level Variability in Blind via Electroplating” (G. Poon, J. Chan y D. Wi- 
lliams, en Proceedings of the Institution of Mechanical Engineers, 2001:521-530) describe un experimento factorial con que 
determinó cuáles de los diferentes factores influyen en la variabilidad del espesor de un depósito de ácido de cobre electrode- 
positado. Los resultados del experimento se presentan aquí como un diseño completo 2*; se han omitido dos factores estadís- 
ticamente insignificantes. Hubo una réplica por tratamiento. Los factores son A: concentración de ácido sulfúrico (g/L), B: 
concentración de sulfato de cobre (g/L), C: densidad de corriente promedio (mA/cm?), D: separación de electrodo (cm) y E: 
distancia entre los huecos (cm). El resultado es la variabilidad en el espesor (en um), medida al calcular la desviación estándar 
de los espesores medidos en diferentes puntos en un tablero de prueba, después de que se han eliminado las mediciones más 
grandes y más pequeñas. Los datos se presentan en la tabla siguiente. 


Tratamiento Resultado | Tratamiento Resultado | Tratamiento Resultado|| Tratamiento Resultado 
1 1.129 d 1.760 e 1.224 de 1.674 
a 0.985 ad 1.684 ae 1.092 ade 1.215 
b 1.347 bd 1.957 be 1.280 bde 1.275 
ab 1.151 abd 1.656 abe 1.381 abde 1.446 
C 2.197 cd 2.472 ce 1.859 cde 2.585 
ac 1.838 acd 2.147 ace 1.865 acde 2.587 
be 1.744 bcd 2.142 bce 1.867 bcde 2.339 
abc 2.101 abcd 2.423 abce 2.005 abcde 2.629 


9.5 Experimentos factoriales 2? 711 


a) Calcule las estimaciones de los efectos principales y de las interacciones. 


b) Si usted fuera a diseñar un experimento de seguimiento, ¿en qué factores se concentraría? ¿Por qué? 


11. El artículo “Factorial Design for Column Flotation of Phosphate Wastes” (N. Abdel-Khalek, en Particulate Science and Tech- 
nology, 2000:57-70) describe un diseño factorial 2* para investigar el efecto de velocidad aérea superficial (4), concentración 
más espumosa (B) y velocidad de agua de lavado superficial (C) en la recuperación porcentual del P,0;. Hubo dos réplicas. 
Los datos se presentan en la tabla siguiente. 


Recuperación 
A B C porcentual 
-1 -1 -1 56.30 54.85 
1 -1 -1 70.10 72.70 
-1 1 -1 65.60 63.60 
1 1 -1 80.20 78.80 
-1 -1 1 50.30 48.95 
1 -1 1 65.30 66.00 
-1 1 1 60.53 59.50 
1 1 1 70.63 69.86 


a) Calcule las estimaciones de los efectos principales y las interacciones, junto con sus sumas de los cuadrados y P-valores. 


b) ¿Cuales factores parecen más importantes? ¿Los factores importantes interactúan? Explique. 


12. El artículo “An Application of Fractional Factorial Designs” (M. Kilgo, en Quality Engineering, 1988:19-23) describe un diseño 
2” Umedia-réplica de un diseño 2*) que implica el uso de dióxido de carbono (CO,) en la alta presión para extraer aceite de los 
cacahuates. Los resultados fueron la solubilidad del aceite de cacahuate en el CO, (en mg de aceite/litro de CO») y la producción 
de aceite de cacahuate (en %). Los cinco factores fueron A: presión del CO,, B: temperatura del CO,, C: humedad del cacahuate, 
D: tasa de circulación del CO, y E: tamaño de partícula de cacahuate. Los resultados se presentan en la tabla siguiente. 


Tratamiento Solubilidad Producción || Tratamiento Solubilidad Producción 
e 29.2 63 d 22.4 23 
a 23.0 21 ade 372 74 
b 37.0 36 bde 31.3 80 
abe 139.7 99 abd 48.6 33 
E 23.3 24 cde 22.9 63 
ace 38.3 66 acd 36.2 21 
bce 42.6 71 bcd 33.6 44 
abc 141.4 54 abcde 172.6 96 


a) Suponiendo que las interacciones de tercer orden y superiores son despreciables, calcule las estimaciones de los efectos 
principales y de las interacciones para la solubilidad resultante. 


b) Trace las estimaciones en una gráfica de probabilidad normal. ¿La gráfica muestra que algunos de los factores influyen en 
la solubilidad? Si es así, ¿cuáles son? 


c) Suponiendo que las interacciones de tercer orden y superior sean insignificantes, calcule las estimaciones de los efectos 
principales y de las interacciones para la producción resultante. 


d) Trace las estimaciones en una gráfica de probabilidad normal. La gráfica muestra que algunos de los factores influyen en 
la producción? Si es así, ¿cuáles son? 


13. En un diseño 2*' (como en el ejercicio 12), ¿qué representa en realidad la estimación del efecto principal del factor A? 


712 CAPÍTULO 9 Experimentos factoriales 


1) El efecto principal de A. 
11) La suma del efecto principal de A y la interacción de BCDE. 
iii) La diferencia entre el efecto principal de A y la interacción de BCDE. 


iv) La interacción entre A y BCDE. 


Ejercicios adicionales para el capítulo 9 


1. El artículo “Gypsum Effect on the Aggregate Size and Geometry of Three Sodic Soils Under Reclamation” (1. Lebron, D. Suá- 
rez y T. Yoshida, en Journal of the Soil Science Society of America, 2002:92-98) describe un experimento en el que se ha agre- 
gado yeso en diferentes cantidades a muestras de tierra antes del filtrado. Uno de los resultados relevantes fue el pH de la tierra. 
El yeso se agregó en cuatro cantidades diferentes. Tres muestras de tierra recibieron una cantidad agregada. Las mediciones de 
pH de las muestras se presentan en la tabla siguiente. 


Yeso (g/kg) pH 
0.00 7.88 7.72 7.68 
0.11 7.81 7.64 7.85 
0.19 7.84 7.63 7.87 
0.38 7.80 7.73 8.00 


¿Puede concluir que el pH difiere de la cantidad de yeso agregado? Proporcione el valor del estadístico de prueba y el P-valor. 


2. El artículo mencionado en el ejercicio 1 también considera el efecto del yeso en la conductancia eléctrica (en dS m”) de la tie- 
rra. Dos tipos de tierra fueron tratados, cada uno, con tres cantidades diferentes de yeso, con dos réplicas para cada combina- 
ción de tierra-yeso. Los datos se presentan en la tabla siguiente. 


Tipo de tierra 


Yeso (g/kg) las Animas Madera 
0.00 1.52 1.05 1.01 0.92 
0.27 1.49 0.91 1.12 0.92 
0.46 0.99 0.92 0.88 0.92 


a) ¿Hay evidencias convincentes de una interacción entre la cantidad de yeso y el tipo de tierra? 
b) ¿Puede concluir que la conductividad difiere entre los tipos de tierra? 


c) ¿Puede concluir que la conductividad difiere con la cantidad de yeso agregado? 


3. La penicilina la produce el hongo Penicillium, que se cultiva en un caldo cuyo contenido de azúcar debe ser cuidadosamente 
controlado. Se tomaron algunas muestras de caldo en cada uno de tres días sucesivos, y se midió la cantidad de azúcar disuel- 
ta (en mg/ml) en cada muestra. Los resultados fueron: 


Día 1: 48 5.1 51 48 52 49 50 49 50 48 48 5.1 5.0 
Día 2: 54 50 50 5.1 52 5.1 53 52 52 5.1 54 5.2 5.4 
Día 3: 3.7 31 33 33 3.3 3.03 3.1 3.6 3.3 32 33 33 3.4 


¿Puede concluir que la media de la concentración de azúcar difiere entre los tres días? 
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4. El siguiente resultado de MINITAB es un ANOVA de dos sentidos. Algo no funcionó con la impresora, y algunos de los nú- 
meros no se imprimieron. 


Two-way Analysis of Variance 


Analysis of Variance 


Source DF SS MS F Pp 
Row 3 145.375 (d) (9) (9) 
Column 2 15.042 (e) (h) (k) 
Interaction 6 (b) 4.2000 (1) () 
Error (a) (c) (f) 

Total 23 217.870 


Complete los números que faltan en la tabla del (a) al (1). Puede dar los rangos para los P-valores. 


5. Mediante un experimento se determinó si a diferentes clases de chocolate les toma periodos diferentes disolverse. Cuarenta per- 
sonas fueron divididas en cinco grupos. A cada grupo se le asigno cierto tipo de chocolate. Cada persona disolvió una pieza de 
chocolate, y se registró el tiempo de disolución (en segundos). Para comparar, cada persona en cada grupo también disolvió 
una pieza de golosina de dulce de azúcar y mantequilla; estos artículos eran idénticos para todos los grupos. Los datos, que in- 
cluyen el grupo, el tiempo de disolución tanto para el chocolate como para el dulce de azúcar y mantequilla, la diferencia en- 
tre los tiempos de disolución, y el cociente de los tiempos de disolución, se presentan en la tabla siguiente. Observe que el 
diseño es ligeramente no balanceado; el grupo 3 tiene nueve personas y el grupo 5 tiene solamente siete. 


Dulce de azúcar 


Grupo Chocolate y mantequilla Diferencia  Cociente 
1 135 60 75 2.25 
1 865 635 230 1.36 
1 122 63 59 1.94 
1 110 75 35 1.47 
1 71 37 34 192 
1 8l 58 23 1.40 
1 2 405 1105 1300 2.18 
1 242 135 107 1.79 
2 42 38 4 1.11 
2 30 30 0 1.00 
Z 104 110 6 0.95 
2 124 118 6 1.05 
2 75 40 35 1.88 
2 80 91 11 0.88 
2 255 121 134 2.11 
2 71 71 0 1.00 
3 51 53 2 0.96 
3 47 40 7 1.18 
3 90 155 65 0.58 
3 65 90 23 0.72 
3 27 33 6 0.82 


Continúa en la página 714 
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Dulce de azúcar 


Grupo Chocolate y mantequilla Diferencia  Cociente 
3 105 68 37 1.54 
3 90 72 18 1.25 
3 54 52 2 1.04 
3 93 77 16 1.21 
4 48 30 18 1.60 
4 85 55 30 1.55 
4 82 50 32 1.64 
4 46 22 24 2.09 
4 64 46 18 1.39 
4 125 45 80 2.78 
4 69 30 39 2.30 
4 73 44 29 1.66 
5 105 45 60 2.33 
5 99 58 41 1.71 
5 45 23 22 1.96 
5 137 64 73 2.14 
5 170 105 65 1.62 
5 153 93 60 1.65 
3 49 28 21 1:75 


a) Para probar si hay diferencias en la media de los tiempos de disolución para los diferentes tipos de chocolate, alguien su- 
giere realizar un ANOVA de un sentido, utilizando el tiempo de disolución para los datos del chocolate. ¿Estos datos pare- 
cen satisfacer los supuestos para un ANOVA de un sentido? Explique. 


b) Otra persona sugiere utilizar las diferencias (chocolate — dulce de azúcar y mantequilla). ¿Estos datos parecen satisfacer 
los supuestos para un ANOVA de un sentido? Explique. 


c) Realice un análisis de varianza de un sentido utilizando los cocientes. ¿Puede concluir que la media del cociente del tiem- 
po de disolución difiere para clases de chocolate diferentes? 


6. El artículo “Stability of Silico-Ferrite of Calcium and Aluminum (SFCA) in Air-Solid Solution Limits Between 1 240*C and 
1 390*C and Phase Relationships within the Fe,03-Ca0-Al,035i0, (FCAS) System” (T. Patrick y M. Pownceby, en Metallur- 
gical and Materials Transactions B, 2002:79-90) investiga las propiedades de silicio-ferritas de calcio y aluminio (SFCA). Los 
datos en la tabla siguiente presentan el cociente de los pesos Fez0; y CaO para elementos SFCA con algunos porcentajes de 
peso diferentes de Al,03 y C4S3. 


ALO, (%) C4S» FezO,/CaO 
L.O Bajo (3-6%) 7.25 6.92 6.60 631 
1.0 Medio (7-10%) 6.03 5.78 5.54 531 
LO Alto (11-149) 5.10 4.90 4.71 4.53 
5.0 Bajo(3-6%) 6.92 6.59 6.29 6.01 
5.0 Medio (7-10%) 5.74 5.26 5.04 4.84 
5.0 Alto (11-14%) 4.84 4.65 4.47 4.29 
10.0 Bajo (3-6%) 6.50 6.18 5.89 5.63 
10.0 Medio (7-10%) 5.37 5.14 492 4.71 
10.0 Alto (11-14%) 4.52 4.33 4.16 3.99 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


c) ¿Los datos indican que hay interacciones entre el porcentaje de peso de Al,0, y el porcentaje de peso C¿S3? Explique. 
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d) ¿Los datos demuestran convincentemente que el cociente Fe,03/CaO depende del porcentaje de peso de A1,03? Explique. 


e) ¿Los datos demuestran convincentemente que el cociente Fe,03/CaO depende del porcentaje de peso de C¿S3? Explique. 


. Se puede fabricar un componente de acuerdo con cualquiera de dos diseños, uno con material más costoso o uno con material me- 
nos costoso. Varios componentes se fabrican con cada combinación de diseño y material, y los tiempos de vida de cada uno se mi- 
den (en horas). Mediante un análisis de varianza de dos sentidos se estimaron los efectos de diseño y material en el tiempo de vida 
de un componente. Las estimaciones de la media de las celdas y de los efectos principales se presentan en la tabla siguiente. 


Medias de la celda Efectos principales 
Diseño 1 Diseño 2 
Más caros 14 
Más caros 118 120 Menos caros 14 
Menos caros 60 122 Diseño 1 16 
Diseño 2 16 
Tabla ANOVA 
Fuente GL ss MS F P 


Material 1 2 352.0 2 352.0 10.45 0.012 
Diseño 1 3 072.0 3 072.0 13.65 0.006 
Interacción 1 2 700.0 2 700.0 12.00 0.009 
Error 8 1 800.0 225.00 

Total 11 9 924.0 


El ingeniero de proceso recomienda que se debe utilizar el diseño 2 junto con el material más costoso. Argumenta que los efec- 
tos principales son positivos, por lo que la utilización de esta combinación dará como resultado un tiempo de vida mayor del 
componente. ¿Está de acuerdo con la recomendación? ¿Por qué sí o no? 


8. El artículo “Case Study Based Instruction of DOE and SPC” (J. Brady y T. Allen, en The American Statistician, 2002:312- 
315) presenta el resultado de un experimento factorial 2%? para investigar los efectos de cuatro factores en la producción de 
un proceso que fabrica tableros de circuitos impresos. Los factores fueron A: la alimentación eléctrica de transistor produjo 
(límite de especificación superior o más bajo), B: enfoque de soporte de transistor (atornillado o soldado), C: tipo de absor- 
bedor de calor del transistor (configuración actual o alternativa) y D: posición de tornillo en el ajustador de frecuencia (me- 
dia o dos vueltas). Los resultados se presentan en la tabla siguiente. La producción es un porcentaje de un máximo teórico. 


A B C D Producción 
1 1 1 1 79.8 
- -1 1 69.0 
-1 1 -1 1 23 
1 -1 -1 71.2 
- -1 1 1 91.3 
-1 1 -1 95.4 
-1 1 1 -1 92.7 
1 1 1 91.5 
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10. 


11. 


a) Estime los efectos principales de cada uno de los cuatro factores. 


b) Suponiendo que todas las interacciones sean despreciables, combine las sumas de los cuadrados para la interacción que se 
utilizarán en vez de una suma de los cuadrados del error. 


c) ¿Cuál de los cuatro factores, si hay, puede concluir que afecta la producción? ¿Cuál es el P-valor de la prueba importante? 


El artículo “Combined Analysis of Real-Time Kinematic GPS Equipment and Its Users for Height Determination” (W. Feat- 
herstone y M. Stewart, en Journal of Surveying Engineering, 2001:31-51) presenta un estudio de la precisión de los equipos 
para medir la altura del sistema de posicionamiento global (GPS, por sus siglas en inglés). Se estudiaron tres tipos de equipos 
y se utilizó cada uno en la realización de mediciones en cuatro estaciones base diferentes (en el artículo se incluye una quinta 
estación, para que los resultados difirieran considerablemente de las otras cuatro). Se hicieron 60 mediciones con cada pieza 
del equipo en cada base. Las medias y las desviaciones estándar de los errores de medición (en mm) se presentan en la tabla 
siguiente para cada combinación de tipo de equipo y estación base. 


Instrumento A Instrumento B Instrumento C 
Desviación Desviación Desviación 
Media estándar Media estándar Media estándar 
Base 0 3 15 —24 18 =6 18 
Base 1 14 26 -13 13 2 16 
Base 2 1 26 —22 39 4 29 
Base 3 8 34 =17 26 15 18 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) La pregunta relevante es si la media del error es diferente entre los instrumentos. No es de interés determinar si el error es 
diferente entre las estaciones base. Por esta razón, un topógrafo sugiere tratar esto último como un diseño de bloques com- 
pletamente aleatorios, con las estaciones base como los bloques. ¿Esto es adecuado? Explique. 


Productores de azúcar de arce de Vermont patrocinaron un programa de prueba para determinar el beneficio de un potencial 
nuevo régimen fertilizante. Se eligió una muestra aleatoria de 27 árboles de arce en Vermont y se trató con uno de los tres ni- 
veles de fertilizante sugeridos por el químico del productor. En esta configuración experimental, nueve árboles (tres de cada 
una de las tres zonas climáticas) se trataron con cada nivel de fertilizante y se midió la cantidad de savia producida (en ml) por 
los árboles en la siguiente estación. Los resultados se presentan en la tabla siguiente. 


Zona sur Zona central Zona norte 
Fertilizante bajo 76.2 80.4 74.2 79.4 87.9 86.9 84.5 85.2 80.1 
Fertilizante medio 87.0 95.1 93.0 98.2 94.7 96.2 88.4 90.4 92.2 
Fertilizante alto 84.2 87.5 83.1 90.3 89.9 93.2 81.4 84.7 82.2 


a) Calcule los efectos principales de los niveles de fertilizante y la zona climática, y sus interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) Pruebe la hipótesis de que no hay interacción entre los niveles de fertilizante y la zona climática. 


d) Pruebe la hipótesis de que no hay ninguna diferencia en la producción de savia respecto los tres niveles de fertilizante. 


Un ingeniero civil está interesado en algunos diseños para un canal de drenaje que se utiliza en la desviación de aguas desbor- 
dadas de los alrededores de una ciudad. Los tiempos de drenaje de una represa conectada a cada uno de los cinco diseños de 
canal diferentes, obtenidos a partir de una serie de experimentos usando condiciones de flujo inicial similares, se presentan en 
la tabla siguiente. 
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Tipo de canal Tiempo de drenaje (min) 


414 434 50.0 41.2 
37.7 493 52.1 37.3 
32.6 33.7 34.8 22,5 
27.3 29.9 32.3 24.8 
449 47.2 48.5 37.1 


QU un 


a) ¿Puede concluir que hay una diferencia en la media de los tiempos de drenaje para los diferentes diseños de canal? 


b) ¿Cuáles pares de diseños, si hay, puede concluir que difieren en sus tiempos de drenaje? 


12. Se estudió un proceso que fabrica vinilo para cubiertas de asientos de automóvil. Se variaron tres factores: el cociente de cier- 
to plastificante (4), la tasa de extrusión (B), y la temperatura de secado (C). El resultado relevante era el espesor del vinilo (en 
milésimas de pulgada). Se empleó un diseño factorial 2* con cuatro réplicas. Los resultados se presentan en la tabla siguiente. 
(Basado en el artículo “Split-Plot Designs and Estimation Methods for Mixture Experiments with Process Variables”, S. Ko- 
walski, J. Cornell y G. Vining, en Technometrics, 2002:72-79.) 


A B C Espesor 
-1 -1 -1 756 7 
1 -1 -1 6, 3.3 
-1 1 -1 88 4 6 
1 1 -1 9. 6 9 
-1 -1 1 1 3 
1 -1 1 7 711 10 
-1 1 1 6.4 5 8 
1 1 1 8 11 11 9 


a) Estime todos los efectos principales y las interacciones. 
b) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
c) ¿El modelo aditivo es adecuado? Explique. 


d) ¿Qué conclusiones acerca de los factores puede obtener a partir de estos resultados? 


13. En el artículo “Occurrence and Distribution of Ammonium in lowa Groundwater” (K. Schilling, en Water Environment Re- 
search, 2002:177-186) se midieron concentraciones de amoniaco (en mg/L) en un gran número de pozos en el estado de lowa. 
Éstos incluían cinco tipos de pozos base. El número de pozos de cada tipo, junto con la media y la desviación estándar de las 
concentraciones en esos pozos, se presentan en la tabla siguiente. 


Tipo de pozo Tamaño muestral Media Desviación estándar 
Cretaceous 53 0.75 0.90 
Mississippian 57 0.90 0.92 
Devonian 66 0.68 1.03 
Silurian 67 0.50 0.97 
Cambrian-Ordovician 51 0.82 0.89 


¿Puede concluir que la media de la concentración difiere entre los cinco tipos de pozos? 


14. El artículo “Enthalpies and Entropies of Transfer of Electrolytes and lons from Water to Mixed Aqueous Organic Solvents” (G. 
Hefter, Y. Marcus y W. Waghorne, en Chemical Reviews, 2002:2773-2836) presenta mediciones de los cambios de entropía y 
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16. 


17. 
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entalpía para muchas sales en una variedad de condiciones. La tabla siguiente presenta los resultados de la transferencia de en- 
talpía (en kJ/mol) de agua a agua + metanol de NaCl (sal de mesa) para varias concentraciones de metanol. Se realizaron cua- 
tro mediciones independientes en cada concentración. 


a) 
b) 


Concentración (%) Entalpía 
5 1.62 1.60 1.62 1.66 
10 2.69 2.66 2.72 2.73 
20 3.56 3.45 3.65 3.52 
30 3.35 3.18 3.40 3.06 


¿Es creíble que la entalpía sea la misma en todas las concentraciones? Explique. 


¿Cuáles pares de concentraciones, si hay, puede concluir que tienen entalpías diferentes? 


Considere el ejercicio 11. 


a) 
b) 


c) 


Calcule la cantidad s = yMSE, la estimación de la desviación estándar del error d. 


Suponga que s sea la desviación estándar del error, determine el tamaño de muestra necesario en cada tratamiento para pro- 
porcionar una potencia de 0.90 y así detectar una diferencia máxima de 10 en las medias del tratamiento con un nivel de 5%. 


Utilizando una estimación más conservadora de 1.55 como la desviación estándar del error, determine el tamaño de mues- 
tra necesario en cada tratamiento para proporcionar una potencia de 0.90 y así detectar una diferencia máxima de 10 en las 
medias de tratamiento con un nivel de 5%. 


Considere el ejercicio 14. 


a) 
b) 


c) 


Calcule la cantidad s = yMSE, la estimación de la desviación estándar del error d. 
Suponga que s sea la desviación estándar del error, encuentre el tamaño de muestra necesario en cada tratamiento para pro- 


porcionar una potencia de 0.80 y así detectar una diferencia máxima de 0.1 en las medias de tratamiento con un nivel de 5%. 


Utilizando una estimación más conservadora de 1.55 como la desviación estándar del error, determine el tamaño de mues- 
tra necesario en cada tratamiento para proporcionar una potencia de 0.80 y así detectar una diferencia máxima de 0.1 en las 
medias de tratamiento con un nivel de 5%. 


El artículo “Factorial Experiments in the Optimization of Alkaline Wastewater Pretreatment” (M. Prisciandaro, A. Del Borghi 
y F. Veglio, en Industrial Engineering and Chemistry Research, 2002:5034-5041) presenta los resultados de algunos experi- 
mentos para investigar los métodos de tratamientos de agua de residuos alcalinos. Se diseñó un experimento 2* sin réplicas. Los 
cuatro factores fueron A: concentración de ácido sulfúrico, B: temperatura, C: tiempo y D: cloruro de calcio de la concentra- 
ción. La variable resultado es la cantidad de precipitados en kg/m'. Los resultados se presentan en la tabla siguiente. 


A B C D Resultado A B C D Resultado 
1 1 1 6.4 -1 -1 -1 1 11.9 
- -1 -1 12.9 1 -1 -1 1 13.1 
= 1 -1 -1 8.6 -1 1 -1 1 12,1 
1 -1 -1 12.9 1 1 -1 1 16.0 
= -1 1 -1 7.4 -1 -1 1 1 12.4 
-1 1 -1 12.0 1 -1 1 1 16.5 
= 1 1 -1 10.7 -1 1 1 1 15.3 
1 1 -1 15.0 1 1 1 1 18.3 


18. 


Ejercicios adicionales para el capítulo 9 719 


a) Calcule todos los efectos principales y las interacciones. 
b) ¿Qué efectos parecen ser mayores que los otros? 


c) Suponga que todas las interacciones de tercer y superior órdenes son iguales a O, y sume las sumas de los cuadrados. Uti- 
lice el resultado en lugar de una suma de los cuadrados del error para calcular los estadísticos F y los P-valores de los efec- 
tos principales. ¿Cuáles factores puede concluir que tienen un efecto sobre el resultado? 


d) El artículo describe algunas réplicas del experimento, en las cuales el error medio cuadrático se encuentra de 1.04, con cua- 
tro grados de libertad. Utilizando este valor, calcule los estadísticos F' y los P-valores de todos los efectos principales y las 
interacciones. 


e) ¿Los resultados del inciso d) ayudan a justificar el supuesto de que las interacciones de tercer y superior órdenes son igua- 
les a 0? Explique. 


f) Utilizando los resultados del inciso d), ¿cuáles factores puede concluir que tienen un efecto sobre el resultado? 


El Williamsburg es un puente colgante que cruza el río East y conecta a Brooklyn y Manhattan en Nueva York. Una evaluación 
de las fuerzas de sus cables se reporta en el artículo “Estimating Strength of the Williamsburg Bridge Cables” (R. Perry, en The 
American Statistician, 2002:211-217). Cada cable de suspensión consta de 7 696 alambres. De uno de los cables se tomó una 
muestra de alambres de 128 puntos. Estos puntos provenían de cuatro posiciones a lo largo de la longitud del cable (1, HL, TIL 
IV). En cada ubicación había ocho puntos igualmente espaciados alrededor de la circunferencia del cable (A, B, C, D, E, F, G, 
H). De cada uno de los ocho puntos se tomaron muestras de alambre de cuatro profundidades: 1) la superficie externa del ca- 
ble, 2) dos pulgadas de profundidad, 3) cuatro pulgadas de profundidad y 4) siete pulgadas de profundidad (el cable tiene un 
radio de 9.625 pulgadas). Bajo los supuestos hechos en el artículo, es adecuado considerar esto último como un experimento 
de dos factores con la posición en la circunferencia y la profundidad como los factores, y con la posición proporcionando cua- 
tro réplicas respecto cada combinación de estos factores. La fuerza de ruptura mínima (en lbf) de cada uno de los 128 puntos 
se presenta en la tabla siguiente. 


Posición 
Circunferencia Profundidad l 1l 1 IV 


6250 5910 5980 5800 
6650 669 6780 5540 
5390 6080 6550 5690 
6510 6580 6700 5980 
6200 6240 6180 6740 
6430 659 6500 6110 
5710 6230 6450 6310 
6510 6600 6250 5660 
5570 5700 6390 6170 
6260 629 5630 6990 
6050 6120 629 5800 
6390 6540 659 6620 
6140 6210 5710 5090 
5090 6000 6020 6480 
5280 5650 5410 5730 
6300 6320 6650 6050 
489% 4830 5000 6490 
5360 5640 5920 6390 
5600 5500 6250 6510 
6640 6810 5760 5200 
5920 5300 5670 6200 
5880 5840 7270 5230 
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Posición 
Circunferencia Profundidad | 1 1 IV 
F 3 6570 6130 5800 6200 
F 4 6120 6430 6100 6370 
G 1 6070 6980 6570 6980 
G 2 6180 6340 6830 6260 
G 3 6360 6420 6370 6550 
G 4 6340 6380 6480 7020 
H 1 5950 5950 6450 5870 
H 2 6180 6560 5730 6550 
H 3 6560 6560 6450 6790 
H 4 6700 669 6670 6600 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 


b) ¿Puede concluir que hay interacciones entre la posición en la circunferencia y la profundidad? Explique. 


c) ¿Puede concluir que la tensión varía con la posición en la circunferencia? Explique. 


d) ¿Puede concluir que la tensión varía con la profundidad? Explique. 


19. En el artículo “Nitrate Contamination of Alluvial Groundwaters in the Nakdong River Basin, Korea” (J. Min, S. Yun y cols., 
Geosciences Journal, 2002:35-46) se midieron varias propiedades químicas de muestras de agua tomadas de pozos de irriga- 
ción en tres ubicaciones. La tabla siguiente presenta las medias, las desviaciones estándar y los tamaños de muestra de las me- 


diciones de pH. 


Ubicación Media DE 


Tamaño de 
muestra 


Río arriba 6.0 0.2 
Río en medio 6.2 0.4 
Río abajo 6.4 0.6 


¿Los datos prueban concluyentemente que el pH difiere en las diferentes ubicaciones? 


20. El artículo citado en el ejercicio 19 proporciona las medidas de la conductividad eléctrica (en 4S/cm). Los resultados se pre- 


sentan en la tabla siguiente. 


Ubicación Media DE 


Tamaño de 
muestra 


Río arriba 463 208 
Río en medio 363 98 
Río abajo 647 878 


49 
31 
30 


¿Puede utilizarse un análisis de varianza de un sentido para determinar si la conductividad varía con la ubicación? ¿O uno de 


los supuestos necesariamente no se cumple? Explique. 


21. El artículo “Factorial Experiments in the Optimization of Alkaline Wastewater Pretreatment” (M. Prisciandaro, A. Del Borghi 
y F. Veglio, en Industrial Engineering and Chemistry Research, 2002:5034-5041) presenta los resultados de un experimento 
para investigar los efectos de las concentraciones de ácido sulfúrico (H,SO4) y cloruro de calcio (CaCl,) en la cantidad de ba- 
rro negro que se precipita en el tratamiento de agua de residuos alcalinos. Había tres niveles de cada concentración y se reali- 


22. 


23. 
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zaron dos réplicas del experimento en cada combinación de niveles. Los resultados se presentan en la tabla siguiente (todas las 
mediciones están en unidades de kg/m'). 


H,SO, CaCl, Precipitado 
110 15 100.2 98.2 
110 30 175.8 176.2 
110 45 216.5 206.0 
123 15 110.5 105.5 
123 30 184.7 189.0 
123 45 234.0 222.0 
136 15 106.5 107.0 
136 30 181.7 189.0 
136 45 211.8 201.3 


a) Construya una tabla ANOVA. Puede dar los rangos para los P-valores. 
b) ¿Es creíble el modelo aditivo? Explique. 
c) ¿Puede concluir que la concentración de H,SO, afecta la cantidad de precipitado? Explique. 


d) ¿Puede concluir que la concentración de CaCl, afecta la cantidad de precipitado? Explique. 


Las inclusiones de un fluido son volúmenes microscópicos de fluido atrapados en la roca durante la formación de ésta. El ar- 
tículo “Fluid Inclusion Study of Metamorphic Gold-Quartz Veins in Northwestern Nevada, U.S.A.: Characteristics of Tectoni- 
cally Induced Fluid” (S. Cheong, en Geosciences Journal, 2002:103-115) describe las propiedades geoquímicas de las 
inclusiones inestables en algunos filones diferentes en el noroeste de Nevada. La tabla siguiente presenta los datos acerca de la 
salinidad máxima (% de NaCl por peso) de las inclusiones en algunas muestras de roca de algunas áreas. 


Área Salinidad 


Humboldt Range 9.2 10.0 11.2 8.8 

Santa Rosa Range 52 6.1 8.3 

Ten Mile 79 6.7 95 7.3 10.4 7.0 
Antelope Range 6.7 84 9.9 

Pine Forest Range 10.5 16.7 17.5 15.3 20.0 


¿Puede concluir que la salinidad difiere entre las áreas? 


El artículo “Effect of Microstructure and Weathering on the Strength Anisotropy of Porous Rhyolite” (Y. Matsukura, K. Has- 
hizume, y C. Oguchi, en Engineering Geology, 2002:39-47) investiga la relación entre el ángulo entre la división y la estruc- 
tura de flujo y la fuerza de la riolita porosa. Se midieron las fuerzas (en MPa) para varios elementos cortados en diferentes 
ángulos. La media y la desviación estándar de las fuerzas para cada ángulo se presentan en la tabla siguiente. 
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Ángulo Media 
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Desviación estándar 


Tamaño de muestra 


00 
15" 
30* 
45? 
60” 
75" 
90” 


22.9 
22.9 
19.7 
14.9 
13:35 
11.9 
14.3 


2.98 
1.16 
3.00 
2.99 
2.33 
2.10 
3.95 


12 
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¿Puede concluir que la fuerza varía con el ángulo? 


El artículo “Influence of Supplemental Acetate on Bioremediation for Dissolved Polycyclic Aromatic Hydrocarbons” (T. Ebi- 
hara y P. Bishop, en Journal of Environmental Engineering, 2002:505-513) describe experimentos en los que agua con hidro- 
carburos de poliaromáticos disueltos (PAH) era introducida en columnas de arena. Se midieron las concentraciones de PAH en 
diferentes profundidades después de 25, 45 y 90 días. Suponga que se realizaron tres mediciones independientes en cada pro- 
fundidad cada vez. Los datos que se presentan en la tabla siguiente son las concentraciones de naftaleno (en mg/L) que son 


consistentes con las medias y desviaciones estándar descritas en el artículo. 


Profundidad 25 días 45 días 90 días 
0 11.15 11.39 11.36 9.28 8.15 8.59 7.68 7.59 7.41 
5 1440 11.78 11.92 9,44 9,34 9,33 7.53 7.92 7.12 
15 11.51 11.01 11.09 9.34 9.11 8.94 7.43 7.47 7.53 
30 12.77 12.18 11.65 9.37 9.27 9.05 7.60 7.48 7.84 
50 11.71 11.29 11.20 9.25 8.97 9.29 7.76 7.84 7.68 
75 11.18 11.45 11.27 9.09 8.86 8.78 7172 7.61 7.74 


a) Construya una tabla ANOVA. Puede dar rangos para los P-valores. 


b) Realice una prueba para determinar si el modelo aditivo es creíble. Proporcione el valor del estadístico de prueba y el P-valor. 


Capítulo Í 0 


Control estadístico 
de calidad 


Introducción 


A medida que el mercado industrial de bienes se hace más global, los fabricantes se han dado 
cuenta que para ser competitivos la calidad y la confiabilidad de sus productos deben ser lo más 
altas posible. Hoy se reconoce, por lo general, que la forma más eficiente en costos para man- 
tener una alta calidad se logra mediante un seguimiento constante del proceso de producción. 
A menudo dicho seguimiento se realiza al extraer una muestra de las unidades de la produc- 
ción y medir cierta característica de calidad. Debido a que las unidades se extraen de determi- 
nada población grande, estos métodos tiene una naturaleza inherentemente estadística. 

Uno de los pioneros en el área del control de calidad estadístico fue el doctor Walter A. 
Shewart, de los laboratorios de la compañía telefónica Bell. En 1924 desarrolló la gráfica del 
control moderna, la cual sigue siendo hasta hoy una de las herramientas más utilizadas en el con- 
trol de calidad. Después de la Segunda Guerra Mundial, los descubrimientos de W. Edwards 
Deming fueron cruciales para despertar el interés en el control de calidad, primero en Japón y 
después en Estados Unidos y otros países. El científico japonés Genichi Taguchi tuvo también un 
papel destacado, al desarrollar métodos de diseño experimental con una visión de mejoramiento 
de la calidad. En este capítulo se destacarán los diagramas de control de Shewart y los diagra- 
mas de suma acumulada (CUSUM, por sus siglas en inglés), puesto que éstas son las herra- 
mientas más poderosas entre las utilizadas frecuentemente en el control estadístico de calidad. 


10.1 Ideas básicas 


El principio básico de los diagramas de control consiste en que en cualquier proceso hay 
siempre una variación en el resultado. Parte de esta variación se debe a causas inherentes al 
proceso y es muy difícil o imposible especificarlas. A estas causas se les llama causas comu- 
nes o probables. Cuando éstas son las únicas causas de la variación, se dice que el proceso 
está en un estado de control estadístico, o de forma sencilla, en control. 


723 


724 


CAPÍTULO 10 Control estadístico de calidad 


Algunas veces se presentan factores especiales que producen mayor variabilidad. Entre 
los factores más comunes se encuentran las máquinas que no funcionan adecuadamente, erro- 
res del operador, fluctuaciones en las condiciones ambientales y variaciones en las propieda- 
des de las materias primas. A éstas se les denomina causas especiales o asignables. Por lo 
general, estas últimas producen mayor nivel de variabilidad que las causas comunes; a esta 
variabilidad se le considera como inaceptable. Cuando un proceso opera cuando se presenta 
una o más causas especiales, se dice que está fuera de control estadístico. 

Los diagramas de control le permiten al ingeniero responsable del mismo decidir si un 
proceso parece estar en control, o si están presente una o más causas especiales. Si se determi- 
na que el proceso está fuera de control, debe definirse y corregirse la naturaleza de la causa es- 
pecial, de tal forma que el proceso vuelva al estado de control estadístico. Existen diversos 
tipos de diagramas de control; el uso de determinado diagrama dependerá de si la característi- 
ca de calidad que se midió es una variable continua, variable binaria, o variable discreta. 
Por ejemplo, cuando se hace el seguimiento de un proceso que fabrica latas de aluminio para 
bebidas, debe medirse la altura de cada lata de la muestra. La altura es una variable continua. 
En ciertas ocasiones, basta simplemente con determinar si la altura se encuentra dentro de cier- 
tos límites requeridos. En este caso, la medición de la calidad toma sólo uno de los dos valo- 
res: adecuado (dentro de los límites) o no adecuado (fuera de los límites). Esta medición es una 
variable binaria, ya que sólo tiene dos valores. Finalmente, podría tenerse interés en contar el 
número de imperfecciones en la superficie de la lata. Ésta es una variable discreta. 

A los diagramas de control utilizados para variables continuas se les denominan dia- 
gramas de control de variables. Entre los ejemplos están el diagrama X, el diagrama R y el 
diagrama S. A los diagramas de control utilizados para variables binarias o discretas se les lla- 
ma diagramas de control de atributos. El diagrama p es el diagrama más comúnmente uti- 
lizado para variables binarias, mientras que el diagrama c se utiliza para variables discretas. 


Recolección de datos: subgrupos racionales 


Los datos utilizados en la construcción de un diagrama de control se recolectan mediante cier- 
to número de muestras tomadas durante determinado periodo. A estas muestras se les conoce 
como subgrupos racionales. Existen muchas estrategias diferentes para escoger subgrupos 
racionales. El principio básico que debía seguirse es que toda la variabilidad dentro de las uni- 
dades de un subgrupo racional debe ser resultado de causas comunes, y ninguna debe ser re- 
sultado de causas especiales. En general, una buena forma de elegir subgrupos racionales 
consiste en definir qué causas especiales son las más importantes de detectar, y enseguida ele- 
gir a los subgrupos racionales en lo que es más probable detectarlas. Los dos métodos común- 
mente más utilizados son: 


mM Muestreo en intervalos regulares, en el que todos los elementos de cada muestra son pro- 
ducidos casi en el mismo tiempo en que se realiza el muestreo. 

mM Muestreo en intervalos regulares, en el que los elementos de cada muestra se extraen a 
partir de todas las unidades producidas desde que se tomó la última muestra. 


Para datos de variables la mayoría de las veces el número de unidades en cada muestra es pe- 
queño, con frecuencia se encuentra entre tres y ocho. El número de muestras debe ser al me- 
nos veinte. En general, es mejor tomar con cierta frecuencia muchas muestras pequeñas que 
tomar pocas muestras con poca frecuencia. Para los datos binarios o discretos, en general, las 
muestras deben ser más grandes. 
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Control contra capacidad 


Es importante entender la diferencia entre el control del proceso y la capacidad del proceso. 
Un proceso está en control si no opera ninguna causa especial. La característica distintiva de un 
proceso que está en control consiste en que los valores de la característica de control varían 
sin seguir alguna tendencia o patrón, ya que las causas comunes no cambian a lo largo del 
tiempo. Sin embargo, es muy posible que un proceso esté en control y aún produzca unida- 
des que no satisfagan cierta especificación. Por ejemplo, suponga que un proceso produce ba- 
rras de acero cuyas longitudes varían de forma aleatoria entre 19.9 y 20.1 cm, sin ningún 
patrón aparente de fluctuación. Este proceso se encuentra en un estado de control. No obstan- 
te, si el diseño requiere una longitud entre 21 y 21.2 cm, muy poca de la producción cumpli- 
ría con la especificación. A la capacidad de un proceso para producir elementos que satisfagan 
con una especificación dada se le llama capacidad del proceso. En la sección 10.5 se anali- 
zará la medición de este último. 


El control del proceso debe realizarse continuamente 


Existen tres fases básicas en el uso de los diagramas de control. Primero, se reúnen los datos; 
luego se grafican para determinar si el proceso está en control y, por último, una vez que el 
proceso ya está en control, debe estimarse su capacidad. Por supuesto, un proceso que en de- 
terminado momento está en control y tiene capacidad para estar fuera de control posterior- 
mente, conforme se vuelvan a presentar las causas especiales. Por esta razón debe darse 


seguimiento a los procesos continuamente. 


Ejercicios para la sección 10.1 


1. 


Indique si cada una de las siguientes características de con- 
trol es una variable continua, binaria o discreta. 


a) La longitud de una barra de acero. 


e) Si un proceso está en un estado de control estadístico, 
entonces casi no habrá variación en la producción. 


. , : 3. Complete los enunciados. Las opciones son: está en con- 
b) El número de imperfecciones que hay en una sección de trol; tiene una capacidad alta. 
una lámina de metal. 
c) Si un tipo de concreto cumple con la resistencia requerida. a) Si la variabilidad en un proceso es aproximadamente 
; : . : 6 constante en el tiempo, el proceso 
d) El tiempo necesario para realizar una inspección final a Pas eaB 
un producto acabado. b) Si la mayoría de las unidades producidas cumplen la es- 
pecificación, el proceso 
Verdadero o falso: 
4. Complete el enunciado: Una vez que un proceso está en un 


a) Los diagramas de control se utilizan para determinar si 
están en curso causas especiales. 


b) Si no está en curso ninguna causa especial, entonces la 
mayoría de la producción cumplirá con la especificación. 


c) La variabilidad debida a causas comunes no aumenta ni 
disminuye demasiado en periodos cortos. 


d) La variabilidad dentro de los elementos de un subgrupo 
racional es resultado de causas especiales. 


estado de control estadístico, 


i) El seguimiento debe seguirse realizando constantemente. 


ii) El seguimiento debe detenerse durante cierto tiempo, ya 
que es poco probable que el proceso se salga de control 
inmediatamente. 


iii) No debe darse seguimiento nuevamente al proceso, a 
menos que éste sea rediseñado. 
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5. Verdadero o falso: 


a) 


b) 


c) 


d) 


Cuando un proceso se encuentra en un estado de control 
estadístico, entonces la mayoría de la producción cum- 
plirá con las especificaciones. 


Cuando un proceso está fuera de control, una propor- 
ción inaceptablemente grande de la producción no cum- 
plirá con las especificaciones. 


Cuando un proceso está en un estado de control estadís- 
tico, toda la variación en el proceso se debe a causas in- 
herentes al propio proceso. 


Cuando un proceso está fuera de control, parte de la varia- 
ción en el proceso se debe a causas externas al proceso. 


6. Complete el enunciado: Cuando se extraen muestras de uni- 
dades para subgrupos racionales, 


a) 


b) 


Es más importante elegir muestras grandes que realizar 
el muestreo frecuentemente, debido a que las muestras 
grandes dan una información más precisa sobre el pro- 
ceso. 


Es más importante realizar el muestreo frecuentemente 
que elegir muestras grandes, de tal manera que las cau- 
sas especiales puedan ser detectarse con mayor rapidez. 


10.2 Diagramas de control para variables 


Cuando se realiza una medición de calidad en una escala de variables, a los datos se les co- 
noce como datos de variables. Para estos datos, primero se utiliza un diagrama R o un dia- 
grama S con el fin de controlar la variabilidad del proceso, y después se utiliza un diagrama 
X para controlar la media del proceso. Los métodos descritos en esta sección suponen que to- 
das las mediciones siguen una distribución aproximadamente normal. 

Lo anterior se ilustra con un ejemplo. El ingeniero de control de calidad a cargo de un 
proceso de empaquetado de sal está preocupado por el contenido de humedad en los paque- 
tes de sal. Para determinar si el proceso está en control estadístico, primero se necesitan defi- 
nir los subgrupos racionales, y después recolectar ciertos datos. Suponga que para el proceso 
de empaquetado de sal la preocupación principal es que la variación en la humedad del am- 
biente de la planta pueda variar el contenido de humedad promedio de los paquetes a lo lar- 
go del tiempo. Recuerde que los subgrupos racionales deben elegirse de tal forma que la 
variación dentro de cada muestra se deba sólo a causas comunes, no a causas especiales. Por 
consiguiente, en este caso una buena opción para los subgrupos racionales es extraer mues- 
tras de diversos paquetes, cada una en intervalos regulares. Los paquetes en cada muestra se- 
rán producidos lo más próximos en tiempo entre sí. De este modo, la humedad del ambiente 
será casi la misma para cada paquete de la muestra, de forma que la variación dentro del gru- 
po no se verá afecta por esta causa especial. Suponga que se extraen cinco paquetes de sal ca- 
da 15 minutos durante ocho horas, y que el contenido de humedad en cada paquete se mide 
como un porcentaje del peso total. Los datos se presentan en la tabla 10.1. 

Como consecuencia de que la muestra se mide en una escala continua, éstos son datos 
de variables. Cada renglón de la tabla 10.1 presenta las cinco mediciones de humedad en una 
muestra dada, junto con su media muestral X, su desviación estándar muestral s y su rango 
muestral R (la diferencia entre el valor mayor y el menor). El último renglón de la tabla con- 
tiene la media de las medias muestrales (X), la media de los rangos muestrales (R) y la media 
de las desviaciones estándar muestrales (5). 

Se supone que cada una de las 32 muestras en la tabla 10.1 constituye una muestra de 
una población normal con media u y desviación estándar d. A la cantidad yu se le llama me- 
dia del proceso, y a o, desviación estándar del proceso. La idea detrás de los diagramas de 
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TABLA 10.1 Contenido de humedad en los paquetes de sal, como porcentaje 
del peso total 


Muestra Valores muestrales Media (X) Rango (R) SD (s) 
1 2.53 2.66 1.88 2.21 2.26 2.308 0.780 0.303 
2 2.69 2.38 2.34 2.47 2.61 2.498 0.350 0.149 
3 2.67 2.23 2.10 2.43 2.54 2.394 0.570 0.230 
4 2.10 2.226 2.51 2.58 2.28 2.346 0.480 0.196 
5 2.64 2.42 2.56 2.51 2.36 2.498 0.280 0.111 
6 2.64 1.63 2.95 2.12 2.67 2.402 1.320 0.525 
7 2.58 2.69 3.01 3.01 2.23 2.704 0.780 0.327 
8 2.31 2.39 2.60 2.40 2.46 2.432 0.290 0.108 
9 3.03 2.68 2.27 2.54 2.63 2.630 0.760 0.274 
10 2.86 3.22 2.72 3.09 2.48 2.874 0.740 0.294 
11 2.71 2.80 3.09 2.60 3.39 2.918 0.790 0.320 
12 2.95 3.54 2.59 3.31 2.87 3.052 0.950 0.375 
13 3.14 2.84 3.77 2.80 3.22 3.154 0.970 0.390 
14 2.85 3.29 3.25 3.35 3.59 3.266 0.740 0.267 
15 2.82 3.71 3.36 2.95 3.37 3.242 0.890 0.358 
16 3.17 3.07 3.14 3.63 3.70 3.342 0.630 0.298 
17 2.81 3.21 2.95 3.04 2.85 2.972 0.400 0.160 
18 2.99 2.65 2.79 2.80 2.95 2.836 0.340 0.137 
19 3.11 2.74 2.59 3.01 3.03 2.896 0.520 0.221 
20 2.83 2.74 3.03 2.68 2.49 2.754 0.540 0.198 
21 2.76 2.85 2.59 2.23 2.87 2.660 0.640 0.265 
22 2.54 2.63 2.32 2.48 2.93 2.580 0.610 0.226 
23 2.27 2.54 2.82 2.11 2.69 2.486 0.710 0.293 
24 2.40 2.62 2.84 2.50 2.51 2.574 0.440 0.168 
25 2.41 2.72 2.29 2.35 2.63 2.480 0.430 0.186 
26 2.40 2.33 2.40 2.02 2.43 2.316 0.410 0.169 
27 2.56 2.47 2.11 2.43 2.85 2.484 0.740 0.266 
28 2.21 2.61 2.59 2.24 2.34 2.398 0.400 0.191 
29 2.56 2.26 1.95 2.26 2.40 2.286 0.610 0.225 
30 2.42 2.37 2.13 2.09 2.41 2.284 0.330 0.161 
31 2.62 2.11 2.47 2.27 2.49 2.392 0.510 0.201 
32 2.21 2.15 2.18 2.59 2.61 2.348 0.460 0.231 


X =2.6502 R = 0.6066 s = 0.2445 


control es que cada valor de X se aproxima a la media del proceso durante el tiempo en que 
se tomó la muestra, mientras que los valores de R y s se pueden utilizar para aproximar la des- 
viación estándar muestral. Si el proceso está en control, entonces la media y la desviación es- 
tándar del proceso son iguales en cada muestra. Si el proceso está fuera de control, la media 
del proceso y o la desviación estándar dr, o ambas, diferirán de muestra en muestra. Por tan- 
to, los valores de X, R, y s variarán menos cuando el proceso esté en control que cuando el 
proceso esté fuera de control. Si fuera el primer caso, los valores de X, R, y s se mantendrán 
casi siempre dentro de límites calculables, denominados límites de control. Si el proceso es- 
tá fuera de control, es más probable que los valores de X, R, o s excedan estos límites. Un dia- 
grama de control grafica los valores de X, R, o s junto con los límites de control, de forma que 
puede verse muy fácilmente si la variación es lo bastante grande para concluir que el proce- 
so está fuera de control. 
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Ahora se verá cómo determinar si el proceso de empaquetado de sal se encuentra en un 
estado de control estadístico con respecto al contenido de humedad. Puesto que se supone que 
la variación dentro de cada muestra se debe solamente a causas comunes, esta variación no 
debe ser muy diferente de una muestra a otra. Por consiguiente, lo primero es comprobar pa- 
ra tener la certeza que la cantidad de la variación dentro de cada muestra, ya sea medida por 
el rango muestral o desviación estándar muestral, no varía demasiado de una muestra a otra. 
Con este propósito se utiliza el diagrama R para estimar la variación en el rango muestral, o 
puede usarse el diagrama S para calcular la variación en la desviación estándar muestral. Pri- 
mero se estudiará el diagrama R, ya que es el más tradicional. Al final de esta sección se ana- 
lizará el diagrama S. 

La figura 10.1 presenta el diagrama R para los datos de humedad. El eje horizontal re- 
presenta las muestras, numeradas del 1 al 32. Los rangos muestrales están graficados en el eje 
vertical. Las tres líneas horizontales son las más importantes. La recta en el centro del diagra- 
ma es el valor R y se le llama recta central. Las rectas superior e inferior indican los límites 
de control 30 superior e inferior (UCL y LCL, respectivamente). Los límites de control están 
dibujados de tal forma que cuando el proceso está en control, casi todos los puntos estarán 
dentro de los límites. Un punto graficado fuera de los límites de control es una evidencia de 
que el proceso no está en control. 


Diagrama R 
: : 7 UCL =1.283 
_= lp e 
E 
E a 
el | K =0.607 
E 
g 
5] 
e 
0 LCL=0 
l l l l l l 
0 5 10 15 20 25 30 


Número de muestra 


FIGURA 10.1 Diagrama R para los datos de humedad. 


Para entender dónde se ubican en el diagrama los límites de control, suponga que los 
32 rangos muestrales provienen de una población con media ¡uz y desviación estándar dz. Los 
valores de uz y Oz no se conocerán exactamente, pero se sabe que en la mayoría de las po- 
blaciones es poco usual observar un valor que sea diferente a la media por más de tres des- 
viaciones estándar. Por esta razón se tiene la costumbre de graficar los límites de control en 
puntos que se aproximan a los valores uz + 30. Se puede demostrar mediante métodos avan- 
zados que las cantidades ug + 30p. pueden estimarse con múltiplos de R; dichos múltiplos 
se representan con D; y Da. La cantidad ug — 30. se estima con DR, y la cantidad ¡uz + 
30 y. se estima con D¿R. Las cantidades D; y D, son constantes cuyos valores dependen del 
tamaño de la muestra n. A continuación se presenta una tabla de valores de D, y Dj. En la ta- 
bla 4.9 (Apéndice A) se muestra una tabulación más extensa. Observe que para tamaños de 
muestra de 6 o menos, el valor de D, es 0. Para estos tamaños de muestra pequeños, la canti- 
dad ug — 307. es negativa. En estos casos se establece que el límite de control inferior es 0, 
debido a que es imposible que el rango sea negativo. 


Ejemplo 
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n 2 3 4 5 6 7 8 


D; 0 0 0 0 0 0.076 0.136 
Da 3.267 2.575 2.282 2.114 2.004 1.924 1.864 


Calcule los límites de control 30 superior e inferior del diagrama R para los datos de hume- 
dad de la tabla 10.1 


Solución 
El valor de R es 0.6066 (tabla 10.1). El tamaño de la muestra es n = 5. A partir de la tabla se 
tiene que Dz = 0 y D, = 2.114. En consecuencia, el límite de control superior es 


(2.114)(0.6066) = 1.283, y el límite de control inferior es (0)(0.6066) = 0. 


En un diagrama R, la recta central y los límites de control 30 superior e inferior están 
dados por 
Límite 30 superior = D¿R 
Recta central = R 


Límite 30 inferior = D¿R 


Los valores D; y D, dependen del tamaño de la muestra. Los valores están tabulados 
en la tabla A.9. 


Una vez que se han calculado los límites de control y se han graficado los puntos, pue- 
de utilizarse el diagrama R para determinar si el proceso está en control con respecto a la va- 
riación. La figura 10.1 muestra que el rango para la muestra 6 excede el límite de control 
superior, por lo que evidencia que estaba operando una causa especial y que la variación del 
proceso no está en control. La acción apropiada es determinar la naturaleza de la causa espe- 
cial, y después eliminar la muestra que no está en control y calcular de nuevo los límites. Su- 
ponga que se descubre que un técnico tuvo la negligencia de cerrar una ventana, lo cual 
provocó una variación mayor a la usual en el contenido de humedad durante el tiempo en el 
que se eligió la muestra. Volver a entrenar al técnico corregirá esa causa especial. Se elimina 
la muestra 6 de los datos y se vuelve a calcular el diagrama R. Los resultados se muestran en la 
figura 10.2. Ahora, la variación del proceso está en control. 

Ahora que se ha puesto en control la variación del proceso, se puede determinar si la 
media del proceso está bajo control al dibujar el diagrama X. La figura 10.3 (página 730) pre- 
senta el diagrama X. Las medias muestrales están graficadas en el eje vertical. Observe que 
no se ha utilizado en este diagrama la muestra 6, ya que es preciso eliminarla para que el pro- 
ceso de variación esté en control. Como en todas los diagramas de control, el diagrama X tie- 
ne una recta central y límites de control superior e inferior. 
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FIGURA 10.2 Diagrama R para los datos de humedad, después de eliminar la muestra 
fuera de control. 
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FIGURA 10.3 Diagrama X para los datos de humedad. La muestra 6 se ha eliminado con 
el fin de que el proceso de variación esté en control. Sin embargo, el diagrama X muestra 
que la media muestral está fuera de control. 


Para calcular la recta central y los límites de control, se puede suponer que la desvia- 
ción estándar del proceso es igual en todas las muestras, ya que se ha utilizado al diagrama R 
para que la variación del proceso esté en control. Si la media del proceso yu también está en 
control, entonces también es igual en todas las muestras. En ese caso, se extraen 32 medias 
muestrales de una población normal con media uz = pu y desviación estándar oz = d/.n, 
donde n es el tamaño de la muestra, que en este caso es igual a 5. Idealmente, se desearía tra- 
zar la recta central en u y los límites de control 30 en y + 30%. Sin embargo, con frecuen- 
cia no se conocen los valores de yu y dy y se deben estimar a partir de los datos. Se estima yu 
con X, el promedio de las medias muestrales. Por consiguiente, la recta central se ubica en X. 
La cantidad oy se puede estimar ya sea mediante el rango promedio R o usando las desvia- 
ciones estándar muestrales. Aquí se usará R y al final de la sección se analizarán los métodos 
basados en la desviación estándar, junto con el análisis de los diagramas S. Se puede demos- 
trar por medio de métodos avanzados que la cantidad 30z se estima con A2R, donde A, es una 
constante cuyo valor depende del tamaño de la muestra. A continuación se presenta una tabla 
de valores de A). En la tabla A.9 se muestra una tabulación más extensa. 


10.2 Diagramas de control para variables 731 


n | 2 3 4 5 6 7 8 
Az | 1880 1023 0.729 0.577 0483 0419 0.373 


En un diagrama X, cuando se utiliza R para estimar a dz, la recta central y los límites 
de control 3d superior e inferior están dados por 
Límite 30 superior = X + AR 
Recta central = X 
Límite 30 inferior = X — AR 


El valor A, depende del tamaño de la muestra. Los valores están tabulados en la 
tabla A.9. 


Calcule los límites de control 3ú superior e inferior del diagrama X para los datos de hume- 
dad de la tabla 10.1. 


Solución 

Con la muestra 6 eliminada, el valor de X es 2.658, y el valor de R es 0.5836. El tamaño de 
la muestra es n = 5. A partir de la tabla se tiene que A, = 0.577. Por tanto, el límite de con- 
trol superior es 2.658 + (0.577)(0.5836) = 2.995, y el límite de control inferior es 2.658 — 
(0.577)(0.5836) = 2.321. 


El diagrama X muestra claramente que la media del proceso no está en control, ya que 
hay diversos puntos ubicados fuera de los límites de control. El jefe de producción instala un 
higrómetro para darle seguimiento a la humedad del ambiente, y determina que las fluctua- 
ciones en el contenido de humedad se deben a las fluctuaciones en la humedad del ambiente. 
Se instala un deshumidificador para estabilizar la humedad del ambiente. Después de haber 
solucionado esta causa especial se recolectan más datos y se construyen un nuevo diagrama 
R y un diagrama X. La figura 10.4 (página 732) presenta los resultados. Ahora el proceso se 
encuentra en un estado de control estadístico. Obviamente, el proceso debe vigilarse en for- 
ma constante, debido a que las causas especiales tienen tendencia a cambiar en forma inespe- 
rada cada vez y es preciso detectarlas y corregirlas. 

Observe que mientras los diagramas de control pueden detectar la presencia de una cau- 
sa especial, éstos no pueden determinar su naturaleza ni cómo corregirlas. Es necesario que 
el ingeniero del proceso entienda bien éste para que puedan diagnosticarse y corregirse las 
causas especiales, detectadas por los diagramas de control. 
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FIGURA 10.4 El diagrama R y el diagrama X después de que se ha corregido una causa 
especial. Ahora el proceso se encuentra en un estado de control estadístico. 


Los pasos que deben seguirse cuando se utilizan el diagrama R y el diagrama X son: 
1. Elija subgrupos racionales. 
2. Calcule el diagrama R. 


3. Determine las causas especiales para cualesquiera de los puntos que no estén en con- 
trol. 


4. Vuelva a construir el diagrama R; omita las muestras que resultaron en puntos fue- 
ra de control. 


5. Una vez que el diagrama R indique que se está en un estado de control, calcule el 
diagrama X, omitiendo las muestras que resultaron en puntos fuera de control en el dia- 
grama R. 


6. Siel diagrama X indica que el proceso no está en control, identifique y corrija algu- 
nas de las causas especiales. 


7. Continúe dando seguimiento a X y R. 
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Funcionamiento del diagrama de control 


Existe una estrecha conexión entre los diagramas de control y las pruebas de hipótesis. La hi- 
pótesis nula es que los procesos están en un estado de control. Un punto graficado fuera de 
los límites de control 3d representa una evidencia en contra de la hipótesis nula. Como en 
cualquier prueba de hipótesis, se puede cometer un error. Por ejemplo, ocasionalmente algún 
punto se encontrará fuera de los límites 30 incluso cuando el proceso está en control. A esto 
se le llama falsa alarma. También puede suceder que un proceso no está en control o no ten- 
ga algún punto fuera de los límites de control, en especial si no se observan durante un perio- 
do suficientemente largo. A esto se le denomina falla de detección. 

Lo deseable es que estos errores ocurran lo menos frecuente posible. Se describe a la 
frecuencia con la cual estos errores se presentan con una cantidad llamada longitud de corri- 
da promedio (ARL, por sus siglas en inglés). La ARL es el número de muestras que deben 
observarse, en promedio, antes de que un punto sea graficado fuera de los límites de control. 
Se desea que la ARL sea grande cuando el proceso está en control, y pequeña cuando está fue- 
ra de control. Se puede calcular la ARL de un diagrama X si se supone que se conocen la me- 
dia del proceso y y la desviación estándar del proceso a. Entonces la recta central se 
localizará en la media del proceso y y los límites centrales estarán en 4 + 307. También de- 
be suponerse, como siempre ha sido el caso con el diagrama X, que la cantidad que se medi- 
rá sigue una distribución aproximadamente normal. Los ejemplos 10.3 al 10.6 muestran cómo 
calcular la ARL. 


Para un diagrama X con límites de control en y + 30z, calcule la ARL de un proceso que es- 
tá en control. 


Solución 

Sea X la media de una muestra. Entonces X — N(u, 0%). La probabilidad de que un punto es- 
té graficado fuera de los límites de control es igual a P(X < y — 30%) + P(X > y + 30%). 
Esta probabilidad es igual a 0.00135 + 0.00135 = 0.0027 (véase la figura 10.5). Por tanto, 
en promedio, 27 de cada 10 000 puntos estarán graficados fuera de los límites de control. Es- 
to es equivalente a 1 de cada 10 000/27 = 370.4 puntos. Por consiguiente, la longitud de co- 
rrida promedio es igual a 370.4. 


0.00135 0.00135 
p 30% p up + 30% 
z=-3 z=3 


FIGURA 10.5 La probabilidad de que un punto esté graficado fuera de los límites de con- 
trol 3, cuando el proceso está en control, es 0.0027 (0.00135 + 0.00135). 


El resultado del ejemplo 10.3 puede interpretarse de la siguiente manera: si un proceso 
está en control, se espera observar alrededor de 370 muestras, en promedio, antes de encon- 
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trar una cuyos diagramas estén fuera de los límites de control, provocando una falsa alarma. 
Observe también que la ARL en el ejemplo 10.3 fue de 10 000/27, que es igual a 1/0.0027, 
donde 0.0027 es la probabilidad de cualquiera de los diagramas de la muestra estén fuera de 
los límites de control. En general, esto es cierto. 


La longitud de corrida promedio (ARL) es el número de muestras que se observarán, 
en promedio, antes de que algún punto del diagrama esté fuera de los límites de con- 
trol. Si p es la probabilidad de que cualquier punto dado del diagrama esté fuera de los 
límites de control, entonces 


ARL=-" (10.1) 
Pp 


Si un proceso está fuera de control, entonces la ARL será menor a 370.4. El ejemplo 
10.4 muestra cómo calcular la ARL para una situación en la que el proceso cambia a una si- 
tuación fuera de control. 


Un proceso tiene una media uu = 3 y desviación estándar a = 1. Se toman muestras de tama- 
ño n = 4. Si una causa especial cambia a la media del proceso a un valor de 3.5, encuentre la 
ARL. 


Solución 

Primero se calcula la probabilidad p de que un punto del diagrama esté fuera de los límites de 
control. Entonces ARL = 1/p. Los límites de control se grafican con base en un proceso que 
está en control. Por consiguiente, éstos se encuentran en u + 30x, donde uy = 3 y 0 = 0/.n 
= 1//4 = 0.5. Por tanto, el límite de control inferior está en 1.5 y el de control superior está 
en 4.5. Si X es la media de una muestra tomada después de que cambió la media del proceso, 
entonces X — N(3.5, 0.5?). La probabilidad de que el diagrama X se encuentre fuera de los lí- 
mites de control es igual a P(X < 1.5) + P(X > 4.5). Esta probabilidad es 0.2228 (véase la 
figura 10.6). En consecuencia, la ARL es igual a 1/0.0228= 43.9. Se tienen que observar al- 
rededor de 44 muestras, en promedio, antes de detectar este cambio. 


1.5 3.5 4.5 
z=—4 z=2 


FIGURA 10.6 La media del proceso ha cambiado de y = 3 a y = 3.5. Ahora el límite 
de control superior se encuentra a sólo 20 de la media, que es indicado por el hecho de 
que z = 2. Ahora el límite de control inferior está a 4oy por debajo de la media. La pro- 
babilidad de que los puntos del diagrama estén fuera de los límites de control es 0.0228 
(0 + 0.0228). 


Ejemplo 
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Con referencia al ejemplo 10.4, ¿a qué valor puede detectarse un cambio positivo con una 
ARL de 20? 


Solución 

M es la nueva media a la que ha cambiado el proceso. Dado que se ha especificado un cam- 
bio positivo, m > 3. En el ejemplo 10.4 se calculó que los límites de control eran 1.5 y 4.5. Si 
X es la media de la muestra tomada después de que la media del proceso cambió, entonces X 
— N(m, 0.57). La probabilidad de que el diagrama X esté fuera de los límites de control es 
igual a PX < 1.5) + P(X > 4.5) (véase la figura 10.7). Esta probabilidad es igual a l/ARL 
= 1/20 = 0.05. Puesto que m > 3, m se aproxima más a 4.5 que a 1.5. Se comenzará supo- 
niendo que el área a la izquierda de 1.5 es insignificante y que el área a la derecha de 4.5 es 
igual a 0.05. El puntaje z de 4.5 es, entonces, 1.645, por lo que (4.5 — m)/0.5 = 1.645. Al des- 
pejar a m, se tiene que m = 3.68. Se termina por comprobar la suposición de que el área a la 
izquierda de 1.5 es insignificante. Con m = 3.68, el puntaje z para 1.5 es (1.5 — 3.68)/0.5 = 
4.36. El área a la izquierda de 1.5 es en realidad insignificante. 


=() 0.05 
| 
1.5 m 4.5 
z=-— 4.36 z=1.645 


FIGURA 10.7 Solución al ejemplo 10.5. 


Con referencia al ejemplo 10.4, si el tamaño de la muestra sigue siendo n = 4, ¿cuál debe ser 
el valor de la desviación estándar dr para tener una ARL de 10 cuando la media del proceso 
cambia a 3.5? 


Solución 

Sea d la nueva desviación estándar del proceso. Los nuevos límites de control son 3 + 3a/,n, 
0 3 + 3012. Si la media del proceso cambia a 3.5, entonces X — M(3.5, 0/4). La probabili- 
dad de que el diagrama X esté fuera de los límites de control es igual a P(X < 3 — 30/2) + 
P(X > 3 — 3012). Esta probabilidad es igual a 1/ARL = 1/10 = 0.10 (véase la figura 10.8, 
página 736). La media del proceso, 3.5, se aproxima más a 3 + 30/2 que a 3 — 30/2. Se su- 
pondrá que el área a la izquierda de 3 — 3a/2 es insignificante y que el área a la izquierda de 
3 + 30/12 es igual a 0.10. El puntaje z para 3 + 30/2 es, entonces, 1.28, por lo que 


(3 +30/2) — 3.5 


= 1.28 
0/2 


Al despejar a se obtiene que dr = 0.58. Se concluye que el área a la izquierda de 3 — 30/2 
es insignificante. Al sustituir a = 0.58, se obtiene que 3 — 30/2 = 2.13. El puntaje z es (2.13 
- 3.5)(0.58/2) = 4.72. El área a la izquierda de 3 — 3/2 es verdaderamente insignificante. 
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3 — 30/12 3.5 3+30/2 
z=-4.72 z=1 


FIGURA 10.8 Solución al ejemplo 10.6. 


Los ejemplos 10.4 a 10.6 muestran que usualmente los diagramas X no detectan los 
cambios pequeños de forma rápida. En otras palabras, la ARL es alta cuando los cambios en 
la media del proceso son pequeños. En principio, se puede reducir la ARL al mover los lími- 
tes de control cerca de la recta central. Esto último reduciría el tamaño del cambio que se ne- 
cesita para detectar una condición fuera de control, por lo que los cambios en la media del 
proceso se detectarían más rápidamente. No obstante, hay un intercambio. La tasa de falsa 
alarma también puede incrementarse, debido a que es más probable que ocurran cambios fue- 
ra de los límites de control. La situación se parece mucho a las pruebas de hipótesis de nivel 
fijo. La hipótesis nula consiste en que el proceso esté en control. El diagrama de control rea- 
liza una prueba de hipótesis para cada muestra. Cuando un punto del diagrama está fuera de 
los límites de control, se rechaza la hipótesis nula. Con los límites de control en + 30%, un 
error del tipo I (rechazo de una hipótesis nula verdadera) ocurrirá aproximadamente una vez 
por cada 370 muestras. El precio que debe pagarse por esta baja tasa de falsa alarma es la fal- 
ta de capacidad de rechazar una hipótesis nula cuando ésta es falsa. La respuesta no es mover 
los límites de control para que se aproximen entre sí. Aunque incrementará la capacidad, tam- 
bién aumentará la razón de falsa alarma. 

Dos de los medios por los cuales los practicantes han intentado mejorar su capacidad 
para detectar pequeños cambios de forma rápida son el uso de las reglas de Western Elec- 
tric para interpretar el diagrama de control y el uso de los diagramas CUSUM. Enseguida se 
describirán las reglas de Western Electric. En la sección 10.4 se presentarán los diagramas 
CUSUM. 


Las reglas de Western Electric 


La figura 10.9 presenta un diagrama X. A pesar de que ninguno de los puntos está fuera de 
los límites de control 3a, claramente el proceso no se encuentra en un estado de control, ya 
que las medias muestrales siguen un patrón no aleatorio. Al darse cuenta de que un proceso 
puede estar fuera de control aun cuando ninguno de los puntos del diagrama se encuentre fuera 
de los límites de control, en 1956 los ingenieros de la compañía Western Electric propusieron 
una lista de condiciones, de las cuales cualquiera puede utilizarse para demostrar que un pro- 
ceso está fuera de control. La idea detrás de estas condiciones es que si en el diagrama de con- 
trol persiste una tendencia o patrón durante un gran periodo, puede ser una señal de ausencia de 
control, incluso si ninguno de los puntos del diagrama está fuera de los límites de control 3c. 

La aplicación de las reglas de Western Electric requiere calcular los límites de control 
la y 20. Los límites de control están dados por X + A2R/3, y los límites de control 2ú están 
dados por X + 24,R/3. 
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5 Diagrama X 
—— 30 =4.725 
20 =3.987 
£ ¿lo =3.249 
Z 
z añ 
E X=2.511 
on 
= 
pa 10 =1.773 
20 =1.035 
30 =0.297 


Número de muestra 


FIGURA 10.9 Este diagrama X exhibe patrones no aleatorios, lo cual es muestra de una 
falta de control estadístico, aun cuando no se encuentren puntos fuera de los límites de con- 
trol 30. En este diagrama se muestran los límites de control 1d y 20, de tal forma que pue- 
dan aplicarse las reglas de Western Electric. 


Las reglas de Western Electric 

Cualquiera de las siguientes condiciones es prueba de que un proceso está fuera de 

control: 

1. Cualquier punto del diagrama fuera de los límites 30. 

2. Dos de tres puntos consecutivos del diagrama por arriba del límite superior 2a, o 
dos de tres puntos consecutivos del diagrama por abajo del límite inferior 20. 

3. Cuatro de cinco puntos consecutivos del diagrama por arriba del límite superior 
la, o cuatro de cinco puntos consecutivos del diagrama por debajo del límite in- 
ferior 10. 

4. Ocho puntos consecutivos del diagrama que estén del mismo lado que la recta cen- 
tral. 


En la figura 10.9 las reglas de Western Electric indican que un proceso está fuera de 
control en el número de muestra 8, lugar en el cual cuatro de cinco puntos consecutivos se en- 
cuentran por arriba del límite de control superior la. Para mayor información sobre el uso de 
las reglas de Western Electric para interpretar los diagramas de control, véase Montgomery 
(2001b). 


El diagrama S 


El diagrama S es una alternativa al diagrama R. Ambos son útiles para controlar la variabili- 
dad en un proceso. Mientras que el diagrama R evalúa la variabilidad con el rango muestral, 
el S utiliza la desviación estándar muestral. La figura 10.10 presenta el diagrama de los datos 
de humedad de la tabla 10.1. 
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Diagrama S 
0.6 T T T T T T 
UCL=0.511 
E 045 
Es] 
=] 
E s=0.245 
m 0.2+- 
A 
g l 1 l l l | LCL > 0 
0 5 10 15 20 25 30 


N mero de muestra 


FIGURA 10.10 Diagrama S para los datos de humedad. Compárese con la figura 10.1. 


Observe que el diagrama S para los datos de humedad es similar en apariencia al dia- 
grama R (figura 10.1) para los mismos datos. Al igual que el diagrama R, el S indica que la 
variación estaba fuera de control en la muestra 6. 

Para entender dónde deben graficarse los límites de control, suponga que 32 desviacio- 
nes estándar provienen de una población con media yu y desviación estándar o. Idealmente se 
desearía que en el diagrama la recta central estuviera en y, y los límites de control en q, + 
39,. Generalmente no se conocen estas cantidades. Se aproxima pu, con s, el promedio de las 
desviaciones estándar. Por tanto, se grafica la recta central en s. Puede demostrarse mediante 
métodos avanzados que las cantidades u, + 30, pueden estimarse con múltiplos de 5; estos 
múltiplos se representan mediante B, y B,. La cantidad uu, — 30, se estima con By5, mientras 
que la cantidad y, + 30, se estima con By5. Las cantidades B3 y B, son constantes cuyos va- 
lores dependen del tamaño de la muestra n. A continuación se presenta una pequeña tabla de 
valores de B, y B,. La tabla A.9 (Apéndice A) muestra una tabulación más extensa. Observe 
que para muestras de tamaño 5 o menos, el valor de By es O. Para muestras así de pequeñas, 
el valor de u, — 30, es negativo. En estos casos se establece que el límite de control es 0, de- 
bido a que es imposible que una desviación estándar sea negativa. 


n 2 3 4 5 6 7 8 
B; 0 0 0 0 0.030 0.118 0.185 
Ba 3.267 2.568 2.266 2.089 1.970 1.882 1.815 


Calcule la recta central y los límites de control 30 superior e inferior del diagrama para los 
datos de humedad de la tabla 10.1. 


Solución 
El valor de s es 0.2445 (tabla 10.1). El tamaño de la muestra es n = 5. De la tabla anterior se 
tiene que Bz = 0 y B, = 2.089. Por consiguiente, el límite de control superior es 


(2.089)(0.2445) = 0.5108, y el límite de control inferior es (01(0.2445) = 0, 
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En un diagrama S, la recta central y los límites de control 3d superior e inferior están 
dados por 
Límite superior 30 = By4S 
Recta central = s 
Límite inferior 30 = B35 
Los valores B, y B, dependen del tamaño de la muestra. La tabla A.9 tabula estos va- 
lores. 


El diagrama S de la figura 10.10 muestra que la variación del proceso se encuentra fue- 
ra de control en la muestra 6. Se elimina esta muestra y se vuelve a calcular el diagrama S. La 
figura 10.11 presenta los resultados. Ahora la variación está bajo control. Observe que este 
diagrama tiene una apariencia similar al diagrama R de la figura 10.2. 


Diagrama S 
0.5 T T T T T T 

=P = UCL = 0.492 
E 
ES 
Z s=0.235 
¡£a] 
A 

0 LCL=0 

l l 1 l l l 
0 3 10 15 20 25 30 


Número de muestra 


FIGURA 10.11 Diagrama S para los datos de humedad, después de eliminar la muestra 
que estaba fuera de control. Compárese con la figura 10.2. 


Una vez que la variación está en control, se calcula el diagrama X para evaluar la me- 
dia muestral. Recuerde que para el diagrama X la recta central se encuentra en X, y que lo 
ideal sería que los límites de control superior e inferior se localizaran a una distancia 30z por 
debajo y por arriba de la recta central. Puesto que se empleó el diagrama S para evaluar la va- 
riación del proceso, se estimará la cantidad 30'z con un múltiplo de s. Específicamente, se es- 
tima a 30% con A35, donde A; es una constante cuyo valor depende del tamaño de muestra n. 
A continuación se muestra una pequeña tabla de valores de A3. La tabla A.9 muestra una ta- 
bulación más extensa. 


n | 2 3 4 5 6 7 8 
As | 2.659 1954 1628 1427 1287 1.182 1.099 
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En un diagrama X, cuando se utiliza a $ para estimar dz, la recta central y los límites 
39 superior e inferior están dados por 


Límite superior 30 = X + A35 
Recta central = X 
Límite inferior 30 = X — A35 


El valor Az depende del tamaño de la muestra. Los valores están tabulados en la tabla A.9. 


Si se utilizan las reglas de Western Electric, deben calcularse los límites de control 1o 
y 20. Los límites lo son X + A35/3; los límites 20 son X + 2435/3. 


Calcule los límites de control 3ú superior e inferior del diagrama X para los datos de hume- 
dad de la tabla 10.1. 


Solución 

Con la muestra 6 eliminada, el valor de X es 2.658, y el valor de 5 es 0.2354. El tamaño de la 
muestra es n = 5. De la tabla se tiene que Az = 1.427. Por tanto, el límite de control superior 
es 2.658 + (1.427)1(0.2354) = 2.994, y el límite de control inferior es 2.658 — (1.427)(0.2354) 
= 2,322. 


La figura 10.12 muestra el diagrama X de los datos de humedad con la muestra 6 eli- 
minada. Los límites de control se parecen mucho a los calculados a partir de los rangos mues- 


Diagrama X 
3.5 T T T 
E 3 UCL = 2.994 
. X =2.658 
3 2.5P Al 
LCL =2.322 
2 ] | | | | | 
0 5 10 iS 20 25 30 


Número de muestra 


FIGURA 10.12 Diagrama X para los datos de humedad. Los límites de control están ba- 
sados en las desviaciones estándar en vez de los rangos muestrales. Compárese con la fi- 
gura 10.3. 
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trales, como lo muestra la figura 10.3. La figura 10.12 indica que el proceso no está en con- 
trol. Después de corregirse, se construyen nuevos diagramas S y X. La figura 10.13 presenta 
los resultados. Ahora, el proceso está en un estado de control estadístico. 


Diagrama S 
ei UCL = 0.483 
0.4 7 
E 
E 0.3 y 
8 s=0.231 
q 0.2 y 
Aa 
0.1 y 
0 LCL=0 
] | | | ] ] 
0 5 10 15 20 25 30 
Número de muestra 
Diagrama X 
2.8 T T T T T T 
2.6 UCL = 2.605 
E 24+ 7 
3 E 
E X=2.275 
5 221 5 
3 
[0 
>] Z 
LCL = 1.946 
18 7] 
| ] ] | | ] 
0 5 10 15 20 25 30 


Número de muestra 


FIGURA 10.12 Diagramas S y X después de que se corrigió la causa especial. Ahora el 
proceso se encuentra en un estado de control estadístico. Compárese con la figura 10.4. 


En resumen, el diagrama $ es una alternativa al diagrama R que puede utilizarse junto 
con el diagrama X. Para los datos de humedad, los dos diagramas produjeron resultados muy 
similares. Esto es cierto en muchos casos, pero algunas veces los resultados son diferentes. 


¿Cuál es mejor, el diagrama S o el diagrama R? 


Ambos diagramas tienen el mismo objetivo: estimar la desviación estándar del proceso y de- 
terminar si está en control. Parece ser más natural estimar la desviación estándar del proceso 
con la desviación estándar muestral s que con el rango R. De hecho, cuando la población es 
normal, s es una estimación más precisa de la desviación estándar del proceso que R, debido 
a una incertidumbre menor. Para ver esto de forma intuitiva, note que el cálculo de s abarca 
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todas las mediciones de cada muestra, mientras que el cálculo de R sólo toma en cuenta dos 
mediciones (la mayor y la menor). Resulta que el mejoramiento de la precisión obtenido con 
s en contraposición con R aumenta a medida que el tamaño de muestra es mayor. De ahí que 
el diagrama S sea una mejor opción, especialmente para tamaños de muestras más grandes 
(mayores a 5 y en adelante). El diagrama R se sigue utilizando aún, en gran parte por tradi- 
ción. En determinada época, el diagrama R tenía la ventaja de que podía calcularse el rango 
muestral con menos aritmética que la desviación estándar muestral. Hoy en que la mayoría de 
los cálculos se hacen electrónicamente, esta ventaja ya no es válida. Por tanto, el diagrama S 
es en general la mejor opción. 


Muestras de tamaño 1 


En algunas ocasiones se necesitan definir los grupos racionales de tal manera que cada mues- 
tra sólo contenga un valor. Por ejemplo, si la tasa de producción es muy lenta, no sería con- 
veniente esperar a acumular muestras mayores a n = 1. Es imposible calcular un rango 
muestral o una desviación estándar muestral para una muestra de tamaño 1, por lo que no pue- 
den utilizarse los diagramas R y S. Se puede disponer de muchos otros métodos. Uno de ellos 
es el diagrama CUSUM, que se analiza en la sección 10.4. 


Ejercicios para la sección 10.2 


1. El plan de control de calidad para cierto proceso de produc- 


ción consiste en tomar muestras de tamaño 4. Los resultados 
de las últimas 30 muestras pueden resumirse de la siguien- 
te manera: 


30 30 30 
NX, =712.5 SR, = 143.7 yn = 62.5 
i=1 i=1 i=1 


a) Calcule los límites de control 30 para el diagrama R. 
b) Calcule los límites de control 3a para el diagrama S. 


c) Utilizando los rangos muestrales, calcule los límites de 
control 30 para el diagrama X. 


d) Utilizando las desviaciones estándar muestrales, calcule 
los límites de control 30 para el diagrama X. 


. El siguiente diagrama X presenta las últimas 50 muestras 
tomadas de la producción de un proceso. Utilizando las re- 
glas de Western Electric, ¿podría detectarse en cualquier 
momento que el proceso no está en control? Si es así, espe- 
cifique en qué muestra se detectaría primero que el proceso 
está fuera de control y qué regla no se cumple. 


3. Se mide la distancia (en mm) entre los electrodos centrales 


y laterales de las bujías de motores de combustión interna 
en muestras de tamaño 5. La siguiente tabla presenta las 
medias, los rangos y las desviaciones estándar de 20 mues- 
tras consecutivas. 


Muestra Xx R Ss 


1 1.11 0.17 0.07 
2 1.09 0.13 0.06 
3 1.10 0.13 0.06 
4 1.09 0.22 0.09 
5 1.11 0.15 0.06 
6 1.07 0.13 0.06 
7 1.05 0.11 0.05 
8 1.04 0.12 0.06 
9 1.05 0.12 0.05 
10 1.07 0.05 0.02 
11 1.11 0.14 0.07 
12 1.06 0.10 0.04 
13 1.10 0.14 0.07 
14 1.14 0.14 0.05 
15 1.10 0.19 0.08 
16 1.13 0.09 0.04 
17 1.19 0.18 0.07 
18 1.20 0.06 0.03 
19 1.21 0.11 0.05 
20 1.18 0.14 0.06 


Las medias son X = 1.110, R = 0.131 y 5 = 0.057. 


a) Calcule los límites de control 30 para el diagrama R. 
¿La varianza está bajo control? Si no es así, elimine las 
muestras que no lo están y vuelva a calcular a X y R. 


b) Con base en el rango muestral R, calcule los límites de 
control 30 para el diagrama X. Con base en los límites 
30, ¿la media del proceso está bajo control? Si no es así, 
¿cuándo se detecta por primera vez que no está en con- 
trol? 


c) Con base en las reglas de Western Electric, ¿la media del 
proceso está bajo control? Si no es así, ¿cuándo se de- 
tecta por primera vez que no está en control? 


. Repita el ejercicio 3 utilizando el diagrama S en lugar del R. 


. Un proceso tiene una media de 10 y desviación estándar de 
2. Se da seguimiento al proceso tomando muestras de tama- 
ño 4 en intervalos regulares. Se concluye que el proceso no 
está en control si es que un punto del diagrama X se encuen- 
tra fuera de los límites de control 30. 


a) Si la media del proceso pasa a ser 11, ¿cuál es el núme- 
ro de muestras promedio que se extraerán antes de que 
se detecte el cambio en el diagrama X? 


b) ¿A qué valor necesita darse el cambio positivo para de- 
tectarlo con una ARL de 6? 


c) Si el tamaño de la muestra sigue siendo de 4, ¿a qué va- 
lor debe reducirse la desviación estándar para que pro- 
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duzca una ARL de 6 cuando la media del proceso cam- 
bia a 11? 


d) Si la desviación estándar sigue siendo de 2, ¿qué tama- 
ño de muestra debe utilizarse para que se produzca una 
ARL no mayor de 6 cuando la media del proceso cam- 
bia a 11? 


. Un proceso tiene una media de 7.2 y desviación estándar de 


1.3. Se da seguimiento al proceso tomando muestras de ta- 
maño 6 en intervalos regulares. Se concluye que el proceso 
no está en control si es que un punto del diagrama X se en- 
cuentra fuera de los límites de control 37. 


a) Si la media del proceso cambia a 6.7, ¿cuál es el núme- 
ro de muestras promedio que se extraerán antes de que 
se detecte el cambio en el diagrama X? 


b) ¿A qué valor necesita darse el cambio positivo para de- 
tectarlo con una ARL de 15? 


c) Si el tamaño de la muestra sigue siendo de 6, ¿a qué va- 
lor debe reducirse la desviación estándar para que pro- 
duzca una ARL de 15 cuando la media del proceso 
cambia a 6.7? 


d) Si la desviación estándar sigue siendo de 1.3, ¿qué ta- 
maño de muestra debe utilizarse para que se produzca 
una ARL no mayor a 6 cuando la media del proceso 
cambia a 6.7? 


. Se da seguimiento a un proceso tomando muestras en inter- 


valos regulares y se concluye que está fuera de control si un 
punto del diagrama está fuera de los límites de control 37. 
Suponga que el proceso está en control. 


a) ¿Cuál es la probabilidad de que ocurra una falsa alarma 
en las próximas 50 muestras? 


b) ¿Cuál es la probabilidad de que ocurra una falsa alarma 
en las próximas 100 muestras? 


c) ¿Cuál es la probabilidad de que no haya una falsa alar- 
ma en las próximas 200 muestras? 


d) Complete el enunciado: La probabilidad es de 0.5 de 
que haya una falsa alarma en las próximas 
muestras. 


. Se toman periódicamente muestras de seis cojinetes de bo- 


la y se miden sus diámetros (en mm). La siguiente tabla pre- 
senta las medias, los rangos y las desviaciones estándar de 
25 muestras consecutivas. 
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Muestra XxX R s 
1 199.5 12 2.38 
2 200.4 7.9 2.70 
3 202.0 3.6 1:35 
4 198.9 5.3 1.95 
5 199.1 3.4 1.53 
6 200.2 4.8 2.19 
7 199.5 2.1 0.87 
8 198.1 1D 2i2Z 
9 200.0 5.5 2.09 
10 199.0 9.2 Sal 
11 199.3 7.8 2.64 
12 199.3 5.8 1.98 
13 200.5 3.6 1.36 
14 200.1 57 2.34 
15 200.1 3.0 1,11 
16 200.4 5.2 1.99 
17 200.9 4.1 1.54 
18 200.8 3.5 2.01 
19 199.3 8.3 2.92 
20 199.8 3.8 1.78 
21 199.5 3.6 1.60 
22 198.9 12 2.60 
23 199.6 3.8 1.69 
24 200.3 3.1 1.15 
25 199.9 4.1 1.86 


Las medias son X = 199.816, R = 5.164 y 5 = 1.961. 


a) Calcule los límites de control 30 para el diagrama R. 
¿La varianza está bajo control? Si no es así, elimine las 
muestras que no están en control y vuelva a calcular a X 
y R. 


b) Con base en el rango muestral R, calcule los límites de 
control 30 para el diagrama X. Con base en los límites 
30, ¿la media del proceso está bajo control? Si no es así, 
¿cuándo se detecta por primera vez que no lo está? 


c) Con base en las reglas de Western Electric, ¿la media del 
proceso está bajo control? Si no es así, ¿cuándo se de- 
tecta por primera vez que no lo está? 


9. Repita el ejercicio 8 utilizando el diagrama S en lugar del R. 


13. 


Cierto tipo de circuito integrado está conectado a su marco 
mediante cuatro alambres. Se toman treinta muestras de 
cinco unidades cada una, y se mide la resistencia de empu- 
je (en gramos) de un alambre de cada unidad. La tabla E10 
presenta los datos. Las medias son X = 9.81, R = 1.14 y 5 
= 0.4647. 


a) Calcule los límites de control 30 para el diagrama R. 
¿La varianza está fuera control en algún punto? Si es así, 
elimine las muestras que no están en control y vuelva a 
calcular a X y aR. 


b) Calcule los límites de control 30 para el diagrama X. 
Con base en los límites 3a-, ¿la media del proceso está 
bajo control? Si no es así, ¿en qué punto se detecta por 
primera vez que no lo está? 


c) Con base en las reglas de Western Electric, ¿la media del 
proceso está bajo control? Si no es así, ¿cuándo se de- 
tecta por primera vez que no lo está? 


Repita el ejercicio 10 utilizando el diagrama S en lugar del R. 


Los alambres de cobre están revestidos con una fina capa de 
plástico. Cada hora se toman muestras de cuatro alambres y 
se mide el espesor del revestimiento (en milésimas). La ta- 
bla El12 de la página 746 presenta los datos de las últimas 
30 muestras. Las medias son X = 150.075, R = 6.97 y 5 = 
3.082. 


a) Calcule los límites de control 30 para el diagrama R. 
¿La varianza está fuera control en algún punto? Si es así, 
elimine las muestras que no lo están y vuelva a calcular 
aXyakR. 

b) Calcule los límites de control 30 para el diagrama X. 
Con base en los límites 30, ¿la media del proceso está 
bajo control? Si no es así, ¿en qué punto se detecta por 
primera vez que no lo está? 


c) Con base en las reglas de Western Electric, ¿la media del 
proceso está bajo control? Si no es así, ¿cuándo se de- 
tecta por primera vez que no lo está? 


Repita el ejercicio 12 utilizando el diagrama S en lugar del R. 


10.2 Diagramas de control para variables 


TABLA E10 Datos para el ejercicio 10 


Muestra 


No DU un 


Valores muestrales 


10.3 98 9.7 9.9 
99 9.4 10.0 9.4 
90 99 9.6 9.2 


10.1 


10.6 


10.3 9.6 
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TABLA E12 Datos para el ejercicio 12 


Muestra Valores muestrales Xx R Ss 


1 146.0 147.4 151.9 155.2 150.125 9.2 4.22 
2 147.1 147.5 151.4 149.4 148.850 4.3 1.97 
3 148.7 148.4 149.6 154.1 150.200 5.7 2.65 
4 151.3 150.0 152.4 148.2 150.475 4.2 1.81 
5 146.4 147.5 152.9 150.3 149.275 6.5 2.92 
6 150.2 142.9 152.5 155.5 150.275 12.6 Dl 
7 147.8 148.3 145.7 149.7 147.875 4.0 1.66 
8 137.1 156.6 147.2 148.9 147.450 19.5 8.02 
9 151.1 148.1 145.6 147.6 148.100 5.5 2.27 
10 151.3 151.3 142.5 146.2 147.825 8.8 4.29 
11 151.3 153.5 150.2 148.7 150.925 4.8 2.02 
12 151.9 152.2 149.3 154.2 151.900 4.9 2.01 
13 152.8 149.1 148.5 146.9 149.325 5.9 2.50 
14 152.9 149.9 151.9 150.4 151.275 3.0 1.38 
15 149.0 149.9 153.1 152.8 151.200 4.1 2.06 
16 153.9 150.8 153.9 145.0 150.900 8.9 4.20 
17 150.4 151.8 151.3 153.0 151.625 2.6 1.08 
18 157.2 152.6 148.4 152.6 152.700 8.8 3.39 
19 152.7 156.2 146.8 148.7 151.100 9.4 4.20 
20 150.2 148.2 149.8 142.1 147.575 8.1 310 
21 151.0 151.7 148.5 147.0 149.550 4.7 2.19 
22 143.8 154.5 154.8 151.6 151.175 11.0 5.12 
23 143.0 156.4 149.2 152.2 150.200 13.4 5.64 
24 148.8 147.7 147.1 148.2 147.950 1.7 0.72 
25 153.8 145.4 149.5 153.4 150.525 8.4 3.93 
26 151.6 149.3 155.0 149.0 151.225 6.0 201.1 
27 149.4 151.4 154.6 150.0 151.350 5.2 2:32 
28 149.8 149.0 146.8 145.7 147.825 4.1 1.90 
29 155.8 152.4 150.2 154.8 153.300 3:6 2 
30 153.9 145.7 150.7 150.4 150.175 8.2 3.38 


10.3 Diagramas de control para atributos 


El diagrama p 


El diagrama p se utiliza cuando la característica de calidad que se medirá en cada unidad sólo 
toma dos valores; por lo general, “defectuoso” y “no defectuoso”. En cada muestra se calcula 
la proporción de unidades defectuosas; después se grafican estas proporciones muestrales. 
Ahora se describirá cómo calcular la recta central y los límites de control. 

Sea p la probabilidad de que una unidad dada esté defectuosa. Si el proceso está en con- 
trol, esta probabilidad es constante a lo largo del tiempo. Sea k el número de muestras. Se su- 
pondrá que todas las muestras tienen el mismo tamaño, y éste se representará por n. Sea X; el 
número de unidades defectuosas en la ¡-ésima muestra, y p, = X;¡/n la proporción de unidades 
defectuosas en la ¡-ésima muestra. Ahora, X, — Bin (n, p), y si np > 10, es aproximadamen- 
te cierto que p; — N(p, p(l — p)/n) (véase p. 274). Dado que P, tiene una media yu = p y una 


Ejemplo 
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desviación estándar o = yp(1 — p)/n, se tiene que la recta central debe ubicarse en p, y 
que los límites de control 30 deben estar en p +3/p(1 — p)/n. Usualmente no se conoce 
a p y se estima con P = Ep ¡ P;/k, el promedio de las proporciones muestrales ),. 


En un diagrama p, en el que el número de unidades en cada muestra es n, la recta cen- 
tral y los límites de control 3d superior e inferior están dados por 


S5U= 
Límite superior 30 = p+34/ po= a 
n 


Recta central = p 


515 
Límite inferior 30 =p — 3 Pm 
n 


Estos límites de control serán válidos si np > 10. 


Estas ideas se ilustran en el ejemplo 10.9. 


En la producción de placas de silicio se extraen 30 muestras de tamaño 500, y se calcula la 
proporción de placas defectuosas en cada muestra. La tabla 10.2 muestra los resultados. Cal- 
cule la recta central y los límites de control del diagrama p. Dibuje el diagrama. ¿Parece que 
el proceso esté en control? 


TABLA 10.2 Número y proporción de unidades defectuosas, para el ejemplo 10.9 


VN 0=Z DD El Un 


Proporción de Proporción de 
Número de unidades Número de unidades 
Muestra Unidades defectuosas defectuosas ($) || Muestra unidades defectuosas defectuosas ($) 
17 0.034 16 26 0.052 
26 0.052 17 19 0.038 
31 0.062 18 31 0.062 
25 0.050 19 27 0.054 
26 0.052 20 24 0.048 
29 0.058 21 22 0.044 
36 0.072 22 24 0.048 
26 0.052 23 30 0.060 
25 0.050 24 25 0.050 
21 0.042 25 26 0.052 
18 0.036 26 28 0.056 
33 0.066 2 22 0.044 
29 0.058 28 31 0.062 
17 0.034 29 18 0.036 
28 0.056 30 23 0.046 


748 


CAPÍTULO 10 Control estadístico de calidad 


Solución 

El promedio de las 30 proporciones muestrales es p = 0.050867. En consecuencia, la recta 
central se ubica en 0.050867. Los límites de control se grafican en 0.050867 + 
3./(0.050867)(0.949133)/500. Por tanto, el límite de control superior es 0.0803, y el límite 
de control inferior es 0.0214. La figura 10.4 muestra el diagrama p. Parece que el proceso sí 
está en control. 


Diagrama p 
T T T 
_ 0.08 UCL = 0.0803 
7 
E 0.06 - - 
E p=0.0509 
50.041 - 
3 
Ss 
A 0.02 E = LCL = 0.0214 
| y y | y | 
0 5 10 15 20 25 30 


Número de muestra 


FIGURA 10.4 Diagrama p para los datos de la tabla 10.2. 


El tamaño de muestra necesario para construir un diagrama p usualmente es mayor que 
el requerido para un diagrama X. La razón es que el tamaño de la muestra debe ser lo sufi- 
cientemente grande para que haya varias unidades defectuosas en la mayoría de las muestras. 
Si las unidades defectuosas no se presentan frecuentemente, el tamaño de las muestras debe 
ser muy grande. 


Interpretación de las señales de fuera de control 

en diagramas de atributos 

Cuando se utiliza un diagrama de control de atributos para darle seguimiento a la frecuencia 
de las unidades defectuosas, un punto del diagrama que está por arriba del límite de control 
superior requiere de una respuesta muy diferente a un punto del diagrama que está por deba- 
jo del límite de control inferior. Ambas situaciones indican que una causa especial ha cambia- 
do la proporción de unidades defectuosas. Un punto del diagrama que está por arriba del 
límite de control superior señala que la proporción de unidades defectuosas ha aumentado, 
por lo que debe emprenderse alguna acción para identificar y eliminar la causa especial. Sin 
embargo, un punto del diagrama que está por debajo del límite de control inferior indica que 
la causa especial ha reducido la proporción de unidades defectuosas. Aun así debe identificar- 
se la causa especial; en este caso, debe hacerse algo para que ésta siga operando, de tal for- 
ma que la proporción de unidades defectuosas pueda disminuir permanentemente. 


El diagrama c 

El diagrama c se utiliza cuando la medida de calidad es el conteo del número de defectos, o 
imperfecciones, en una unidad dada. Una unidad puede ser un solo elemento o un grupo de 
elementos lo suficientemente grande para que el número esperado de imperfecciones sea lo 
bastante grande. El uso del diagrama c requiere que el número de defectos siga una distribu- 
ción Poisson. Suponga que se extraen k unidades, y que c, denota el número total de defectos 
en la ¡-ésima unidad. Sea que A denote la media del número total de fallas por unidad. Enton- 
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ces c; — Poisson(A). Si el proceso está en control, el valor de A es constante en el tiempo. Ahora, 
si 2 es razonablemente grande, por ejemplo 4 > 10, entonces aproximadamente c; — N(A, A) 
(véase p. 278). Observe que el valor de A puede hacerse grande al escoger un número de ele- 
mentos por unidad lo suficientemente grande. El diagrama c se construye al graficar los va- 
lores de c;. Puesto que c;, tiene una media A y una desviación estándar igual 2, la recta 
central debe graficarse en A y los límites de control deben graficarse en 4 + 342. Usualmen- 
te no se conoce el valor de A y tiene que estimarse a partir de los datos. La estimación apro- 
piada es c = ¿9% c;/k, el número de defectos por unidad. 


En un diagrama c, la recta central y los límites de control 30 superior e inferior están 
dados por 


Límite superior 30 = c+ 37 
Recta central = € 
Límite inferior 30 = 8 — 3V7 


Estos límites de control serán válidos si c > 10. 


El ejemplo 10.10 muestra estas ideas. 


Se examinan las grietas en la superficie de los rollos de láminas de aluminio utilizados para 
fabricar latas. La tabla 10.3 presenta el número de grietas que hay en 40 muestras de 100 m? 
cada una. Calcule la recta central y los límites de control 30 para el diagrama c. Dibuje el dia- 
grama. ¿El proceso parece estar en control? 


Solución 

El promedio de los 40 conteos es c = 12,275. Por tanto, la recta central se localiza en 12.275. 
Los límites de control 30 se grafican en 12.275 + 312.275. En consecuencia, el límite de 
control superior es 22.7857, y el de control inferior es 1.7643. La figura 10.15 en la página 
750 presenta el diagrama c. El proceso parece estar en control. 


TABLA 10.3 Número de grietas, para el ejemplo 10.10 


Número de Número de Número de Número de 

Muestra grietas (c) Muestra grietas (c) Muestra grietas (c) Muestra grietas (c) 
1 16 11 14 21 11 31 10 
2 12 12 11 22 16 32 10 
3 9 13 10 23 16 33 10 
4 13 14 9 24 13 34 12 
5 15 15 9 25 12 3) 14 
6 5 16 14 26 17 36 10 
el 13 17 10 27 15 37 15 
8 11 18 12 28 13 38 12 
9 15 19 8 29 15 39 11 
10 12 20 14 30 13 40 14 
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Diagrama c 
25 E T T T Y 
_ UCL = 22.786 
3 20 - 
E 13 
E [E ya 
ES 7=12.275 
2 10 7 
Ss 
o 
Oo sb Y 
LCL = 1.764 
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Número de muestra 


FIGURA 10.15 Diagrama c para los datos de la tabla 10.3. 


Ejercicios para la sección 10.3 


1. Se da seguimiento a un proceso para determinar las unida- 


¿Esta información es suficiente para determinar si el proce- 


des defectuosas tomando diariamente una muestra de 200 
unidades y calculando la proporción que está defectuosa. 
Sea p;, la proporción de unidades defectuosas en la ¡-ésima 
muestra. Para las últimas 30 muestras, la suma de las pro- 
porciones es E pi = 1.64. Calcule la recta central y los 
límites de control 30 superior e inferior para un diagrama p. 


. Se requiere que el diámetro de cierta cabeza remachadora 
mida entre 13.3-13.5 mm. Diariamente se toma una mues- 
tra de 400 remachadoras, y se cuenta el número de éstas que 
no cumplen con el requisito. Los números de remachadoras 
defectuosas para cada uno de los últimos 20 días son los si- 
guientes: 


12 25 23 15 20 11 16 20 18 25 
22 16 22 18 37 35 40 40 36 30 


a) Calcule los límites 30 superior e inferior para un diagra- 
ma p. 

b) ¿El proceso está en control? Si no es así, ¿cuándo es la 
primera vez que se detectó que no lo está? 


. Se da seguimiento a un proceso para determinar las unidades 
defectuosas tomando periódicamente una muestra de 100 
unidades y calculando el número de defectuosas. En las últi- 
mas 50 muestras hubo un total de 622 unidades defectuosas. 
¿Se tiene la suficiente información para calcular los límites 
de control 30 para un diagrama p? Si es así, calcule los lími- 
tes. Si no, diga qué información adicional se requiere. 


. Con referencia al ejercicio 3, en las últimas 50 muestras hu- 
bo 622 unidades defectuosas. El número máximo de éstas 
en las muestras fue de 24, mientras que el mínimo fue de 6. 


so se encontraba fuera de control en cualquier momento du- 
rante las últimas 50 muestras? Si es así, diga si el proceso 
estaba o no fuera de control. Si no, diga qué información 
adicional se requiere para hacer la determinación. 


. Un programa de control de calidad apenas diseñado para 


cierto proceso consiste en tomar muestras de 20 unidades al 
día y contar el número de unidades defectuosas. El número 
éstas en las primeras 10 muestras son 0, 0, 1, 0, 1, 0,0, 0, 1, 
0. Un miembro del grupo de control de calidad pide conse- 
jo dada su preocupación de que el número de unidades de- 
fectuosas sea muy pequeño para construir un diagrama p 
preciso. ¿Cuál de los siguientes consejos es el mejor? 


i) No necesita cambiarse nada. Un diagrama p preciso 
puede construirse cuando el número de unidades defec- 
tuosas es así de pequeño. 


ii) Dado que la proporción de unidades que están defectuo- 
sas es tan pequeña, no se necesita construir un diagrama 
P para este proceso. 


iii) Aumente el valor de p para incrementar el número de 
unidades defectuosas por muestra. 


iv) Aumente el tamaño de las muestras para incrementar el 
número de unidades defectuosas por muestra. 


. Se da seguimiento a un proceso que produce latas de alumi- 


nio al tomar muestras de mil latas y contar el número total 
de grietas visuales que hay en todas las latas de la muestra. 
Sea c; el número total de grietas en las latas en la ¡-ésima 
muestra. Para las últimas 50 muestras se ha calculado la 
cantidad e c; = 1476 . Calcule la recta central y los lí- 


mites de control 3d superior e inferior para un diagrama c. 


7. Con referencia al ejercicio 6, el número de grietas en la vi- 


gésima muestra fue 48. ¿Se puede determinar si el proceso 
estaba en control en dicho momento? Si es así, establezca si 
el proceso estaba o no en control. Si no, diga qué informa- 
ción adicional se necesita para hacer dicha determinación. 


A A Lia 2 e 
. Cada hora se inspecciona una sección 10 m” de un tejido pa- 


10.4 El diagrama CUSUM 751 


UI 
00 
UY 
Q 
UY 
Í 
E 
NO 
95) 
00) 
ÉS 
go 
ÉS 
[e] 
ÉS 
un] 
ÉS 
y 
- 
[e 


41 53 36 41 


u 
pun 
[o 
uy 
[93] 
un 
un 
00 
un 
uu 
uu 
—l 


a) Calcule los límites 30 superior e inferior para un diagra- 
ma p. 


b) ¿El proceso está en control? Si no es así, ¿cuándo es la 
primera vez que se detectó que no lo está? 


ra determinar sus grietas. Los números de grietas observa- 
das durante las últimas 20 horas son: 


10.4 El diagrama CUSUM 


Uno de los objetivos de un diagrama X es detectar un cambio en la media del proceso. No 
obstante, a menos que un cambio sea bastante grande, puede transcurrir cierto tiempo antes 
de que un punto del diagrama se ubique fuera de los límites de control 3d. El ejemplo 10.4 
(en la sección 10.2) demostró que cuando la media de un proceso cambia por una cantidad 
igual a dx, la longitud de corrida promedio (ARL) es aproximadamente de 44, lo cual signi- 
fica que en promedio deben observarse 44 muestras antes de que se determine que el proce- 
so está fuera de control. Las reglas de Western Electric (sección 10.2) son un método para 
reducir la ARL; el diagrama CUSUM (cumulative sums) es otro. 

Una forma en que se manifiestan los cambios por sí mismos es con una corrida de pun- 
tos por arriba o debajo de la recta central. Las reglas de Western Electric están diseñadas pa- 
ra responder a las corridas. Otra forma de detectar pequeños cambios es con sumas 
acumuladas. Imagine que la media de un proceso tiene un ligero cambio positivo. Entonces 
los puntos tendrán cierta tendencia a estar por arriba de la recta central. Si se suman las des- 
viaciones desde la recta central en adelante, y se grafican las sumas acumuladas, los puntos 
se desplazarían hacia arriba y excederían un límite control mucho antes de lo que lo harían en 
un diagrama X. 

Ahora se describe cómo graficar los puntos en un diagrama CUSUM. Se supone que se 
tienen m muestras de tamaño n, con medias muestrales X,, ..., X,,. Para comenzar, debe es- 
pecificarse un valor objetivo uu para la media del proceso. Con frecuencia, el valor de y se to- 
ma igual al valor X. Por lo que se necesita una estimación de oz, la desviación estándar de 
las medias muestrales. Ésta puede obtenerse ya sea con rangos muestrales, utilizando la esti- 
mación Oz = A2R/3, o con desviaciones estándar muestrales, empleando la estimación dz = 
A35/3. Si sólo hay una unidad por muestra (n = 1), entonces se necesita de una estimación ex- 
terna. Aunque una estimación aproximada puede producir buenos resultados, el procedimien- 
to CUSUM también puede ser útil cuando n = 1. Finalmente, deben especificarse dos 
constantes, de manera usual denominadas k y h. Los valores grandes de estas constantes re- 
sultan en longitudes de corridas promedio más largas y, por tanto, en menos falsas alarmas, 
pero también resultan en mayores tiempos de espera para descubrir que un proceso está fue- 
ra de control. A menudo se utilizan los valores k = 0.5 y h = 4 0 5, ya que resultan en una 
ARL razonablemente larga cuando el proceso está en control, aún así siguen teniendo buen 
poder de detectar un cambio de magnitud loz o mayor en la media del proceso. 

Para cada muestra, la cantidad X, — yu es la desviación del valor objetivo. Se definen 
dos sumas acumuladas, SH y SL. La suma SH siempre es positiva o cero e indica que la me- 
dia del proceso se ha hecho mayor que el valor objetivo. La suma SL siempre es negativa o 
cero e indica que la media del proceso se ha hecho menor al valor objetivo. Ambas sumas se 
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calculan de forma recursiva; es decir, se utiliza el valor actual en la secuencia para calcular el 
siguiente valor. Los valores iniciales de SH y SL son 


SHo = 0 SLo = 0 (10.2) 

Para ¡ > 1, los valores son 
SH; = máx[O, Xi == koz + SH;-1] (10.3) 
SL; =mín[0, X; — + koz + SL;-1] (10.4) 


Si SH, > haz para alguna /, se concluye que la media del proceso es mayor que el valor ob- 
jetivo. Si SL, < —haz para alguna i, se concluye que la media del proceso es menor que el 
valor objetivo. 

La figura 10.16 presenta un diagrama CUSUM para los datos de la figura 10.9 (sección 
10.2). Se utilizaron los valores k = 0.5 y h = 4. El valor 2.962 es la cantidad hoz = 4(0.738). 
El diagrama CUSUM muestra que en la décima muestra hay una situación fuera de control. 
Para estos datos, el diagrama CUSUM funciona tan bien como las reglas de Western Electric, 
las cuales determinaron que el proceso se encontraba fuera de control en la octava muestra 
(véase la figura 10.9). 


Diagrama CUSUM 


UCL = 2.952 


Suma acumulada 


LCL = —2.952 


0 5 10 15 20 25 30 
Número de muestras 


FIGURA 10.16 Diagrama CUSUM para los datos de la figura 10.9. 


En un diagrama CUSUM se grafican dos sumas acumuladas, SH y SL. 
Los valores iniciales son SH, = SL, = 0. Para ¿> 1, 


SH; = máx[0, X; — y — koz + SH;-1] 
SL; = mín[O, X; =p + koz + SE;-1] 


Deben especificarse las constantes k y h. Con frecuencia se obtienen buenos resultados 
con los valores k =0.5yh=405. 

Si para cualquier i, SH, > haz o SL, < —haz, se dice que el proceso está fuera de 
control. 
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Existen algunos otros métodos para construir diagramas CUSUM, los cuales son equi- 
valentes, o casi equivalentes, al método presentado aquí. Alguna gente define que las desvia- 
ciones son los puntajes z z, = (X, — )/az, y después se utiliza z, en lugar de X, — u, y ken 
lugar de kay en las fórmulas de SH y SL. Con esta definición, los límites de control se grafi- 


can en =h en vez de en =2h0x. 


También existen otros métodos para dibujar el diagrama CUSUM. La alternativa más 
común es el enfoque “máscara V”. Para mayor información, puede consultarse un libro sobre 
control estadístico de calidad, como Montgomery (2000). 


Ejercicios para la sección 10.4 


1. Considérese el ejercicio 3 de la sección 10.2. 


a) Elimine todas las muestras que sean necesarias para que 
la variación del proceso esté bajo control. (Usted ya rea- 
lizó esto último si resolvió el ejercicio 3 en la sección 
10.2.) 


b) Utilice R para estimar oz (oz es la diferencia entre X y 
el límite de control la en un diagrama X). 


c) Construya un diagrama CUSUM utilizando X para la 
media objetivo, qu, y la estimación de dz encontrada en 
el inciso b) para la desviación estándar. Use los valores 
k=05yh=4. 

d) ¿La media del proceso está en control? Si no es así, 
¿cuándo se detecta por primera que no lo está? 


e) Construya un diagrama X y emplee las reglas de Wes- 
tern Electric para determinar si la media del proceso es- 
tá en control. (Usted ya lo hizo en el ejercicio 3 de la 
sección 10.2.) ¿Las reglas de Western Electric dan los 
mismos resultados que el diagrama CUSUM? Si no, ¿en 
qué difieren? 


. Considere el ejercicio 8 de la sección 10.2. 


a) Elimine todas las muestras que sean necesarias para que 
la variación del proceso esté bajo control. (Usted ya rea- 
lizó esto último si resolvió el ejercicio 8 en la sección 
10.2.) 


b) Utilice R para estimar oz (oz es la diferencia entre E y 
el límite de control la en un diagrama X). 


c) Construya un diagrama CUSUM utilizando X para la 
media objetivo, qu, y la estimación de dz encontrada en 
el inciso b) para la desviación estándar. Use los valores 
k=05yh=4. 

d) ¿La media del proceso está en control? Si no es así, 
¿cuándo se detecta por primera que no lo está? 


e) Construya un diagrama X y emplee las reglas de Wes- 
tern Electric para determinar si la media del proceso es- 
tá en control. (Usted ya hizo esto si resolvió el ejercicio 
8 de la sección 10.2.) ¿Las reglas de Western Electric 
dan los mismos resultados que el diagrama CUSUM? Si 
no es así, ¿en qué difieren? 


. Considere el ejercicio 10 de la sección 10.2. 


a) Elimine todas las muestras que sean necesarias para que 
la variación del proceso esté bajo control. (Usted ya rea- 
lizó esto si resolvió el ejercicio 8 en la sección 10.2.) 


b) Utilice R para estimar oz (0z es la diferencia entre X y 
el límite de control 1o en un diagrama X). 


c) Construya un diagrama CUSUM utilizando E para la 
media objetivo, u, y la estimación de dz encontrada en 
el inciso b) para la desviación estándar. Use los valores 
k=05yh= 4. 

d) ¿La media del proceso está en control? Si no es así, 
¿cuándo se detecta por primera que no lo está? 


e) Construya un diagrama X y emplee las reglas de Wes- 
tern Electric para determinar si la media del proceso es- 
tá en control. (Usted ya hizo esto si resolvió el ejercicio 
10 de la sección 10.2.) ¿Las reglas de Western Electric 
producen los mismos resultados que el diagrama CU- 
SUM? Si no es así, ¿en qué difieren? 


. Considere el ejercicio 3 de la sección 10.2. 


a) Elimine todas las muestras que sean necesarias para que 
la variación del proceso esté bajo control. (Usted ya rea- 
lizó esto si resolvió el ejercicio 12 en la sección 10.2.) 


b) Utilice R para estimar Ox (0 y es la diferencia entre X y 
el límite de control 1 en un diagrama X). 


c) Construya un diagrama CUSUM utilizando Y para la 
media objetivo, u, y la estimación de dz encontrada en 
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el inciso b) para la desviación estándar. Use los valores 
k=0.5yh= 4. 

d) ¿La media del proceso está en control? Si no es así, 
¿cuándo se detecta por primera que no lo está? 


e) Construya un diagrama X y emplee las reglas de Wes- 
tern Electric para determinar si la media del proceso es- 
tá en control. (Usted ya hizo esto si resolvió el ejercicio 
12 de la sección 10.2.) ¿Las reglas de Western Electric 
dan los mismos resultados que el diagrama CUSUM? Si 
no es así, ¿en qué difieren? 


. Se supone que los bloques de concreto utilizados en cierta 
aplicación tienen una fuerza de compresión promedio de 
1 500 MPa. Se usan muestras de tamaño 1 para el control 
de calidad. Las fuerzas de compresión de las últimas 40 
muestras están dadas en la siguiente tabla. 


Muestras Fuerza Muestras Fuerza 
1 1487 21 1507 
2 1463 22 1474 
3 1499 23 1515 
4 1502 24 1533 
5 1473 25 1487 
6 1520 26 1518 
7 1520 27 1526 
8 1495 28 1469 
9 1503 29 1472 

10 1499 30 1512 
11 1497 31 1483 
12 1516 32 1505 
13 1489 33 1507 
14 1545 34 1505 
15 1498 35 1517 
16 1503 36 1504 
17 1522 37 1515 
18 1502 38 1467 
19 1499 39 1491 
20 1484 40 1488 
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Resultados anteriores sugieren que un valor de a = 15 es 
razonable para este proceso. 


a) Construya un diagrama CUSUM utilizando el valor de 
1500 para la media objetivo yu, y los valores k = 0.5 y 
h=4. 

b) ¿La media del proceso está en control? Si no es así, 
¿cuándo se detecta por primera vez que no lo está? 


. Un aprendiz de control de calidad está construyendo un dia- 


grama CUSUM. Los valores calculados para SL y SH se 
presentan en la siguiente tabla. Tres de los valores no se cal- 
cularon correctamente. ¿Cuáles son éstos? 


Muestra SL SH 
1 0 0 
2 0 0 
3 0 0 
4 —1.3280 0 
E —1.4364 0 
6 —2.0464 0 
7 —1.6370 0 
8 —0.8234 0.2767 
9 —0.4528 0.1106 
10 0 0.7836 
11 0.2371 0.0097 
12 0.7104 0 
13 0 0.2775 
14 0 0.5842 
15 0 0.3750 
16 0 0.4658 
17 0 0.1866 
18 0 0.3277 
19 —0.2036 0 
20 0 —0.7345 
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10.5 Capacidad del proceso 


Una vez que un proceso se encuentra en un estado de control estadístico es importante eva- 
luar su habilidad para producir elementos que se apeguen a las especificaciones del diseño. 
Se toman en cuenta los datos de variables y se supone que la característica relevante de cali- 
dad sigue una distribución normal. 

El primer paso al evaluar la capacidad del proceso es estimar la media y su desviación 
estándar. Estas estimaciones se denotan mediante £ y O, respectivamente. De manera usual, 
los datos utilizados para calcular 4 y á se extraen de los diagramas de control justo cuando el 
proceso está en un estado de control. La media del proceso se estima con 1 = X. La desvia- 
ción estándar del proceso se puede estimar mediante el rango muestral promedio R o la des- 
viación estándar muestral promedio s. Específicamente, se ha demostrado que 4 puede 
calcularse al dividir R entre una constante llamada d,, o al dividir $ entre una constante lla- 
mada c¿. Los valores de las constantes d, y c4 dependen del tamaño de la muestra. Los valo- 
res están tabulados en la tabla A.9 (en el Apéndice A). 


Si una característica de calidad de un proceso que se encuentra en un estado de control 
sigue una distribución normal, entonces la media (2 y la desviación estándar del proce- 
so € pueden estimarse a partir de los datos del diagrama de control, de la siguiente 
manera: e 
a=X 

 R A 

Od0O=> 0) OdO==— 
da C4 
Los valores de las constantes d, y c4 dependen del tamaño de la muestra. Los valores 
están tabulados en la tabla A.9. 


Observe que la desviación estándar del proceso a no es la misma cantidad que se utili- 
zÓó para calcular los límites de control 30 en el diagrama X. Los límites de control son + 
30 x, donde dy es la desviación estándar de la media muestral. La desviación estándar del pro- 
ceso a es la desviación de la característica de calidad de las unidades individuales. Éstas se 
relacionan entre sí por medio de dz = a/./n, donde n es el tamaño de la muestra. 

Para que pueda utilizarse, una característica de calidad debe encontrarse entre un lími- 
te de especificación menor (LSL, por sus siglas en inglés) y un límite de especificación supe- 
rior (USL, por sus siglas en inglés). En algunas ocasiones sólo hay un límite; esta situación 
se analizará al final de esta sección. Los límites de especificación los determinan los requeri- 
mientos del proceso. En los diagramas de control no hay límites de control. Se supondrá que 
la media del proceso está entre LSL y USL. 

Se analizarán dos índices de la capacidad del proceso, Cpx y C,. El índice C,x describe 
la capacidad del proceso tal como ésta es, mientras que C, describe la capacidad potencial del 
proceso. Observe que el índice de capacidad del proceso C,, no tiene relación alguna con la 
cantidad denominada C, de Mallows que se utiliza para la selección de modelos lineales (véa- 
se el capítulo 8). Es una coincidencia que las dos cantidades tengan el mismo nombre. 
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Se define al índice C, como la distancia desde fL hasta el límite de especificación más 
cercano, dividida entre 30. La figura 10.17 presenta una ilustración en donde (2 se acerca más 
al límite de especificación superior. 


| 
LSL A USL 


FIGURA 10.17 La curva normal representa la población de unidades producidas por un 
proceso. La media del proceso se acerca más al límite de especificación superior (USL) que 
al límite de especificación inferior (LSL). Por tanto, el índice C,, es igual a (USL — 4/36. 


Definición 
El índice C,, es igual a 


1 =LsL USL — fi 


30 30 


cualquiera que sea menor. 


Convencionalmente, el valor mínimo aceptable para C;, es 1. Es decir, se considera que 
un proceso es mínimamente capaz si la media del proceso se encuentra a tres desviaciones es- 
tándar del límite de especificación más cercano. En general, se considera que un valor C,,, de 
1.33, el cual indica que la media del proceso está a cuatro desviaciones estándar del límite de 
especificación más cercano, es bueno. 


Las especificaciones de diseño de una barra de un pistón utilizada en una transmisión auto- 
mática requieren que la longitud de la barra esté entre 71.4 y 72.8 mm. El proceso se vigila 
con un diagrama X y un diagrama S, que utilizan muestras de tamaño n = 5. Éstas demues- 
tran que el proceso está en control. Los valores de X y 5 son X = 71.8 mm y s = 0.20 mm. 
Calcule el valor de C,¡. ¿La capacidad del proceso es aceptable? 


Solución 

Se estima que 4 = X = 71.8. Para calcular (, se tiene, a partir de la tabla A.9, que c, = 0.9400 
cuando el tamaño de la muestra es 5. Por consiguiente, 0 = 5/c, = 0.20/0.9400 = 0.2128. Los 
límites de especificación son LSL = 71.4 mm y USL = 72.8 mm. El valor (4 es más cercano 
al LSL que al USL. En consecuencia, 


¡1 — LSL _NLE= LA 


Cor = — = 
pi 35 (3)(0.2128) 
= 0.6266 


Dado que €, < 1, la capacidad del proceso no es aceptable. 


Ejemplo 
110.13 
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Con referencia al ejemplo 10.11, suponga que se puede ajustar la media del proceso a cual- 
quier valor deseado. ¿Qué valor debe establecerse para maximizar el valor C,;? ¿Cuál será el 
valor de C;y? 


Solución 

Los límites de especificación son LSL = 71.4 y USL = 72.8. El valor de C, se maximizará 
si se ajusta a la media del proceso en el punto medio entre los límites de especificación; esto 
es, si y = 72.1. La desviación estándar del proceso se estima con dá = 0.2128. Por tanto, el 
valor máximo de Cy es (72.1 — 71.4)3)1(0.2128) = 1.0965. La capacidad del proceso sería 
aceptable. 


A la capacidad que puede alcanzarse potencialmente al cambiar la media del proceso al 
punto medio entre los límites de especificación superior e inferior se le llama índice de ca- 
pacidad del proceso, que se denota por C,. Si la media del proceso se encuentra en el punto 
medio entre LSL y USL, entonces la distancia desde de la media hasta cualquier límite de es- 
pecificación es igual a la mitad de la distancia entre los límites de especificación, esto es u — 
LSL = USL — y = (USL - LSLy2 (véase la figura 10.18). De ahí que 


_ USL—LSL 


C= —G (10.5) 


El índice de capacidad del proceso C,, mide la capacidad potencial del proceso; es decir, la ca- 
pacidad máxima que puede alcanzar el proceso sin reducir la desviación estándar de éste. 


| 
LSL p USL 


FIGURA 10.18 Un proceso alcanza su capacidad máxima cuando la media del proceso 
se encuentra en el punto medio entre los límites de especificación. En este caso 4 — LSL 
= USL -— y = (USL - LSLy2. 


Cierto circuito eléctrico requiere que el voltaje de salida esté entre 48 y 32 V. El proceso es- 
tá en control con á = 0.482 V. Calcule el índice de capacidad del proceso C,,. 
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Solución 


_ USL-LSL 52-48 
_ 65 — (6)(0.482) 


C, 
= 1.38 


La capacidad del proceso es potencialmente buena. 


Estimación de la proporción de unidades que no se ajustan 
a las especificaciones a partir de la capacidad del proceso 


Mucha gente utiliza el valor de C, para tratar de estimar la proporción de unidades que no si- 
guen las especificaciones. Por ejemplo, si C,, = 1, entonces los límites de especificación son 
iguales a 4 — 36 y 1 + 36, respectivamente. Por tanto, una unidad no seguirá las especifica- 
ciones sólo si se encuentra a más de tres desviaciones estándar de la media del proceso. Ahora, 
para una población normal la proporción de unidades que se encuentran a más de tres desvia- 
ciones estándar de la media es igual a 0.0027. Por consiguiente, con frecuencia se afirma que 
un proceso con C, = 1 producirá 27 partes que no seguirán las especificaciones de 10 000. 

El problema con esto es que el supuesto de normalidad sólo es aproximado para los pro- 
cesos reales. La aproximación puede ser muy buena cerca de la mitad de la curva, pero con 
frecuencia no es buena en las colas. Por tanto, la proporción verdadera de las partes que no 
siguen las especificaciones puede ser muy diferente de la predicha a partir de la curva normal, 
especialmente cuando la proporción es muy pequeña. En general, las estimaciones de las pro- 
babilidades pequeñas que están basadas en una aproximación normal son en el mejor de los 
casos extremadamente burdas. 


Calidad six-sigma 

La frase “calidad six-sigma” se ha convertido en un término muy común en los estudios de 
calidad de control de los últimos años. Se dice que un proceso tiene una calidad six-sigma si 
el índice de la capacidad del proceso C,, tiene un valor mayor o igual a 2.0. De forma equiva- 
lente, un proceso tiene una calidad six-sigma si la diferencia USL — LSL es de al menos 120. 
Cuando un proceso tiene una calidad six-sigma, entonces la media del proceso se ajusta Óp- 
timamente y se encuentra a seis desviaciones estándar de cada límite de especificación. En es- 
te caso, la proporción de unidades que no siguen las especificaciones es virtualmente igual a 
cero. 

Una característica importante de un proceso six-sigma es que puede resistir cambios 
moderados en la media del proceso sin que haya un deterioro importante en la capacidad. Por 
ejemplo, aunque la media del proceso cambiara en 3d en una dirección u otra, aún se encon- 
traría a 30 del límite de especificación más cercano, por lo que el índice de capacidad segui- 
ría siendo aceptable. 


Considere el ejemplo 10.13, ¿ a qué valor debe reducirse la desviación estándar del proceso 
para que el proceso alcance una calidad six-sigma? 
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Solución 
Para alcanzar una calidad six-sigma, el valor de C,, debe ser al menos de 2.0. El valor de a en 
el que esto último ocurre se encuentra al establecer que C, = 2.0 y despejando a”. Se obtiene 


52 =48 
660 


2.0 


a partir del cual o: = 0.33. 


Tolerancias unilaterales 


Algunas características tienen sólo un límite de especificación. Por ejemplo, los esfuerzos tie- 
nen usualmente un límite de especificación inferior pero no un límite superior, ya que la ma- 
yoría de las aplicaciones de una parte no puede ser demasiado fuerte. El equivalente de C;x 
cuando sólo hay un límite inferior es el índice de capacidad inferior C,,; cuando sólo hay 
un límite superior se refiere al índice de capacidad superior C,,,. Cada una de estas cantidades 
es la diferencia entre la media del proceso 2 y el límite de especificación, dividida entre 36. 


Si un proceso sólo tiene un límite de especificación inferior (LSL), entonces el índice 
de capacidad inferior es 


i=15L 


Cp = = 
pl 30 


Si un proceso sólo tiene un límite de especificación superior (USL), entonces el índice 
de capacidad superior es 


USL— fi 


30 


Cou = 


No hay ningún equivalente de C,, para los procesos que tienen sólo un límite de especifica- 
ción. 


Ejercicios para la sección 10.5 


1. Las especificaciones de diseño para la válvula de entrada de 2. Las especificaciones para el volumen de llenado de latas de 


un motor de combustión interna requieren que la apertura bebidas se encuentran entre 11.95 y 12.10 onzas. Con base 
de la válvula mida entre 0.18 y 0.22 mm. Con base en en muestras de tamaño 5, los datos de un diagrama X, que 
muestras de tamaño 4, los datos de un diagrama X, que de- demuestran que el proceso está en control, producen valo- 
muestran que el proceso está en control, producen valores res de X = 12.01 oz y R = 0.124 oz. 


de X = 0.205 mm y 5 = 0.002 mm. 
a) Calcule el valor de Cy para este proceso. 


a) Calcule el valor de C,, para este proceso. b) ¿La capacidad del proceso es aceptable? Explique. 


b) ¿La capacidad del proceso es aceptable? Explique. 
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3. Considérese el ejercicio 1. proceso para que la capacidad del proceso tenga una ca- 
lidad six-sigma? 
a) ¿A qué valor debe establecerse la media del proceso pa- 
ra que la capacidad del proceso sea máxima? 5. Un proceso tiene un índice de capacidad del proceso de C, 


b) ¿Cuál sería entonces la capacidad del proceso? =1:2. 


a) Suponga que la media del proceso está en su valor ópti- 


4. Considérese el ejercicio 2. j ] ] Ñ 4 
mo. Exprese los límites de especificación superior e in- 


a) ¿A qué valor debe establecerse la media del proceso pa- ferior en términos de la media y la desviación estándar 
ra que la capacidad del proceso sea máxima? del proceso. 

b) ¿Es posible convertir en aceptable la capacidad del proce- b) Utilizando la curva normal, estime la proporción de uni- 
so simplemente gastando la media del mismo? Explique. dades que no seguirán la especificación. 

c) Cuando la media del proceso se encuentra en su valor Óp- c) ¿Existe o no la posibilidad de que la verdadera propor- 
timo, ¿qué valor debe tener la desviación estándar del ción de unidades que no siguen la especificación sea 
proceso para que la capacidad del proceso sea aceptable? muy diferente a la estimación del inciso b)? Explique. 


d) Cuando la media del proceso se encuentra en su valor 
óptimo, ¿qué valor debe tener la desviación estándar del 
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1. Se da seguimiento a un proceso para encontrar el número q XA A O 
de unidades defectuosas tomando diariamente una muestra de Muestra Xx R y 
250 unidades y calculando la proporción que está defectuo- 1 5.114 0.146 0.077 
sa. Sea p, la proporción de unidades defectuosas en la ¡-ési- 2 5.144 0.158 0.085 
ma muestra. Para las últimas 50 muestras, la suma de las 3 5.220 0.057 0.031 
proporciones es o pi = 2.98. Calcule la recta central y 4 5.196 0.158 0.081 
los límites de control 3d superior e inferior para un diagra- 5 5.176 0.172 0.099 
ma p. 6 5.222 0.030 0.017 

dl 5.209 0.118 0.059 

2. Alguien construye un diagrama X en que los límites de con- 8 5.212 0.099 0.053 

9 5.238 0.157 0.085 


trol se encuentran en +2.50y en vez de +30x. 


10 5.152 0.104 0.054 
5.163 0.051 0.026 
12 5.221 0.105 0.055 


R. 
ER 


a) Si el proceso está en control, ¿cuál es la ARL de este 


EAN 13. 5.144 0.132 0.071 
b) Si la media del proceso cambia a loz, ¿cuál es la ARL 14 5.098 0.123 0.062 
de este diagrama? 15 5.070 0.083 0.042 
c) En unidades de dz , ¿qué tan grande puede ser un cam- 16 5.029 0.073 0.038 
bio positivo para que sea detectado con una ARL de 10? 17 5.045 0.161 0.087 


18 5.008 0.138 0.071 
19 5.029 0.082 0.042 
20 5.038 0.109 0.055 


3. Se toman periódicamente muestras de tres resistores y se 


miden sus resistencias en ohms. La siguiente tabla presenta 21 4962 0.0066 0.034 
las medias, los rangos y las desviaciones estándar de 30 22 5.033 0.078 0.04 1 
muestras consecutivas. 23 4.993 0.085 0.044 


24 4.961 0.126 0.066 
25 4.976 0.094 0.047 
26 5.005 0.135 0.068 
27 5.022 0.120 0.062 
28 5.077 0.140 0.074 
29 5.033 0.049 0.026 
30 5.068 0.146 0.076 


Las medias son X = 5.095, R = 0.110 y 5 = 0.058. 


a) Calcule los límites 30 para el diagrama R. ¿La varianza 
está fuera de control en algún punto? Si es así, elimine 
las muestras que están fuera de control y vuelva a calcu- 
lar X y R. 

b) Calcule los límites 30 para el diagrama X. Con base en 
los límites 3d, ¿la media del proceso está en control? Si 
no es así, ¿en qué punto se detecta por primera vez que 
está fuera de control? 


c) Con base en las reglas de Western Electric, ¿la media del 
proceso está en control? Si no es así, ¿en qué punto se 
detecta por primera vez que no lo está? 


. Repita el ejercicio 3, utilizando el diagrama S en lugar del R. 


. Considérese el ejercicio 3. 


a) Elimine todas las muestras que sean necesarias para que 
la variación del proceso esté bajo control. (Usted ya hi- 
zo esto si resolvió el ejercicio 3.) 


b) Utilice R para estimar oz (oz es la diferencia entre X y 
el límite de control la en un diagrama X). 

c) Construya un diagrama CUSUM utilizando X para la 
media objetivo y y la estimación de dz encontrada en el 
inciso b) para la desviación estándar. Utilice los valores 
k=0.5 y h = 0.4. 

d) ¿La media del proceso está en control? Si no es así, ¿en 
qué punto se detecta por primera vez que no lo está? 


e) Construya un diagrama X y utilice las reglas de Western 
Electric para determinar si la media del proceso está en 
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control. (Usted ya hizo esto si resolvió el ejercicio 3.) 
¿Las reglas de Western Electric producen los mismos re- 
sultados que el diagrama CUSUM? Si no es así, ¿en qué 
son diferentes? 


6. Se da seguimiento a un proceso para determinar las grietas 


tomando cada hora una muestra de tamaño 50 y contando el 
número total de grietas en las unidades extraídas. El núme- 
ro total de grietas en las últimas 30 muestras fue de 658. 


a) Calcule la recta central y los límites de control 30 supe- 
rior e inferior. 


b) La décima muestra tiene tres grietas. ¿El proceso estaba 
fuera de control en dicho momento? Explique. 


. Para construir un diagrama p que vigile un proceso que pro- 


duce chips computacionales, diariamente se toman muestras 
de 500 chips y se cuenta el número de éstos defectuosos en 
cada muestra. Los números de chips defectuosos para cada 
uno de los últimos 25 días son los siguientes: 


25 22 14 24 18 16 20 27 19 20 22 7 24 26 
11 14 18 29 21 32 29 34 34 30 24 


a) Calcule los límites 30 superior e inferior para un diagra- 
ma p. 

b) ¿En qué muestra se detecta por primera vez que el pro- 
ceso está fuera de control? 


c) Suponga que se determina la causa especial que da co- 
mo resultado la condición fuera de control. ¿Debería re- 
mediarse esta causa? Explique. 
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TABLA A.1 Distribución binomial acumulativa 


E) 
x 


0.05 


0.10 


0.20 


0.25 


0.30 


x 


n! 


Flo) =P(X <x) = 


k=0 


0.40 


Ana 


k(1 


0.60 


pro 


0.70 


0.75 


0.80 


0.90 


0.95 


J]O0U BUN=0 0 Uu BhwuNnNnX=0 ul BbBUN=0O BbuUuNnX-=.0O un -» O N == 0 


0.902 
0.997 
1.000 


0.857 
0.993 
1.000 
1.000 


0.815 
0.986 
1.000 
1.000 
1.000 


0.774 
0.977 
0.999 
1.000 
1.000 


1.000 


0.735 
0.967 
0.998 
1.000 
1.000 


1.000 
1.000 


0.698 
0.956 
0.996 
1.000 
1.000 


1.000 
1.000 
1.000 


0.810 
0.990 
1.000 


0.729 
0.972 
0.999 
1.000 


0.656 
0.948 
0.996 
1.000 
1.000 


0.590 
0.919 
0.991 
1.000 
1.000 


1.000 


0.531 
0.886 
0.984 
0.999 
1.000 


1.000 
1.000 


0.478 
0.850 
0.974 
0.997 
1.000 


1.000 
1.000 
1.000 


0.640 
0.960 
1.000 


0.512 
0.896 
0.992 
1.000 


0.410 
0.819 
0.973 
0.998 
1.000 


0.328 
0.737 
0.942 
0.993 
1.000 


1.000 


0.262 
0.655 
0.901 
0.983 
0.998 


1.000 
1.000 


0.210 
0.577 
0.852 
0.967 
0.995 


1.000 
1.000 
1.000 


0.562 
0.938 
1.000 


0.422 
0.844 
0.984 
1.000 


0.316 
0.738 
0.949 
0.996 
1.000 


0.237 
0.633 
0.896 
0.984 
0.999 


1.000 


0.178 
0.534 
0.831 
0.962 
0.995 


1.000 
1.000 


0.133 
0.445 
0.756 
0.929 
0.987 


0.999 
1.000 
1.000 


0.490 
0.910 
1.000 


0.343 
0.784 
0.973 
1.000 


0.240 
0.652 
0.916 
0.992 
1.000 


0.168 
0.528 
0.837 
0.969 
0.998 


1.000 


0.118 
0.420 
0.744 
0.930 
0.989 


0.999 
1.000 


0.082 
0.329 
0.647 
0.874 
0.971 


0.996 
1.000 
1.000 


0.360 
0.840 
1.000 


0.216 
0.648 
0.936 
1.000 


0.130 
0.475 
0.821 
0.974 
1.000 


0.078 
0.337 
0.683 
0.913 
0.990 


1.000 


0.047 
0.233 
0.544 
0.821 
0.959 


0.996 
1.000 


0.028 
0.159 
0.420 
0.710 
0.904 


0.981 
0.998 
1.000 


0.160 
0.640 
1.000 


0.064 
0.352 
0.784 
1.000 


0.026 
0.179 
0.525 
0.870 
1.000 


0.010 
0.087 
0.317 
0.663 
0.922 


1.000 


0.004 
0.041 
0.179 
0.456 
0.767 


0.953 
1.000 


0.002 
0.019 
0.096 
0.290 
0.580 


0.841 
0.972 
1.000 


0.090 
0.510 
1.000 


0.027 
0.216 
0.657 
1.000 


0.008 
0.084 
0.348 
0.760 
1.000 


0.002 
0.031 
0.163 
0.472 
0.832 


1.000 


0.001 
0.011 
0.070 
0.256 
0.580 


0.882 
1.000 


0.000 
0.004 
0.029 
0.126 
0.353 


0.671 
0.918 
1.000 


0.062 
0.438 
1.000 


0.016 
0.156 
0.578 
1.000 


0.004 
0.051 
0.262 
0.684 
1.000 


0.001 
0.016 
0.104 
0.367 
0.763 


1.000 


0.000 
0.005 
0.038 
0.169 
0.466 


0.822 
1.000 


0.000 
0.001 
0.013 
0.071 
0.244 


0.555 
0.867 
1.000 


0.040 
0.360 
1.000 


0.008 
0.104 
0.488 
1.000 


0.002 
0.027 
0.181 
0.590 
1.000 


0.000 
0.007 
0.058 
0.263 
0.672 


1.000 


0.000 
0.002 
0.017 
0.099 
0.345 


0.738 
1.000 


0.000 
0.000 
0.005 
0.033 
0.148 


0,423 
0.790 
1.000 


0.010 
0.190 
1.000 


0.001 
0.028 
0.271 
1.000 


0.000 
0.004 
0.052 
0.344 
1.000 


0.000 
0.000 
0.009 
0.081 
0.410 


1.000 


0.000 
0.000 
0.001 
0.016 
0.114 


0.469 
1.000 


0.000 
0.000 
0.000 
0.003 
0.026 


0.150 
0.522 
1.000 


0.003 
0.098 
1.000 


0.000 
0.007 
0.143 
1.000 


0.000 
0.000 
0.014 
0.185 
1.000 


0.000 
0.000 
0.001 
0.023 
0.226 


1.000 


0.000 
0.000 
0.000 
0.002 
0.033 


0.265 
1.000 


0.000 
0.000 
0.000 
0.000 
0.004 


0.044 
0.302 
1.000 
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0.05 


0.10 


0.20 


0.25 


0.30 


0.40 


0.60 


0.70 


0.75 


0.80 


0.90 


0.95 


10 


11 


WO JO0U UNO 00 YJ0O0U AUN -.O 0<J)0U aun O 


ps 
o 


0 JO Un BUN O 


0.663 
0.943 
0.994 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 


0.630 
0.929 
0.992 
0.999 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.599 
0.914 
0.988 
0.999 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.569 
0.898 
0.985 
0.998 
1.000 


1.000 
1.000 
1.000 
1.000 


0.430 
0.813 
0.962 
0.995 
1.000 


1.000 
1.000 
1.000 
1.000 


0.387 
0.775 
0.947 
0.992 
0.999 


1.000 
1.000 
1.000 
1.000 
1.000 


0.349 
0.736 
0.930 
0.987 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.314 
0.697 
0.910 
0.981 
0.997 


1.000 
1.000 
1.000 
1.000 


0.168 
0.503 
0.797 
0.944 
0.990 


0.999 
1.000 
1.000 
1.000 


0.134 
0.436 
0.738 
0.914 
0.980 


0.997 
1.000 
1.000 
1.000 
1.000 


0.107 
0.376 
0.678 
0.879 
0.967 


0.994 
0.999 
1.000 
1.000 
1.000 


1.000 


0.086 
0.322 
0.617 
0.839 
0.950 


0.988 
0.998 
1.000 
1.000 


0.100 
0.367 
0.679 
0.886 
0.973 


0.996 
1.000 
1.000 
1.000 


0.075 
0.300 
0.601 
0.834 
0.951 


0.990 
0.999 
1.000 
1.000 
1.000 


0.056 
0.244 
0.526 
0.776 
0.922 


0.980 
0.996 
1.000 
1.000 
1.000 


1.000 


0.042 
0.197 
0.455 
0.713 
0.885 


0.966 
0.992 
0.999 
1.000 


0.058 
0.255 
0.552 
0.806 
0.942 


0.989 
0.999 
1.000 
1.000 


0.040 
0.196 
0.463 
0.730 
0.901 


0.975 
0.996 
1.000 
1.000 
1.000 


0.028 
0.149 
0.383 
0.650 
0.850 


0.953 
0.989 
0.998 
1.000 
1.000 


1.000 


0.020 
0.113 
0.313 
0.570 
0.790 


0.922 
0.978 
0.996 
0.999 


0.017 
0.106 
0.315 
0.594 
0.826 


0.950 
0.991 
0.999 
1.000 


0.010 
0.071 
0.232 
0.483 
0.733 


0.901 
0.975 
0.996 
1.000 
1.000 


0.006 
0.046 
0.167 
0.382 
0.633 


0.834 
0.945 
0.988 
0.998 
1.000 


1.000 


0.004 
0.030 
0.119 
0.296 
0.533 


0.753 
0.901 
0.971 
0.994 


0.001 
0.009 
0.050 
0.174 
0.406 


0.685 
0.894 
0.983 
1.000 


0.000 
0.004 
0.025 
0.099 
0.267 


0.517 
0.768 
0.929 
0.990 
1.000 


0.000 
0.002 
0.012 
0.055 
0.166 


0.367 
0.618 
0.833 
0.954 
0.994 


1.000 


0.000 
0.001 
0.006 
0.029 
0.099 


0.247 
0.467 
0.704 
0.881 


0.000 
0.001 
0.011 
0.058 
0.194 


0.448 
0.745 
0.942 
1.000 


0.000 
0.000 
0.004 
0.025 
0.099 


0.270 
0.537 
0.804 
0.960 
1.000 


0.000 
0.000 
0.002 
0.011 
0.047 


0.150 
0.350 
0.617 
0.851 
0.972 


1.000 


0.000 
0.000 
0.001 
0.004 
0.022 


0.078 
0.210 
0.430 
0.687 


0.000 
0.000 
0.004 
0.027 
0.114 


0.321 
0.633 
0.900 
1.000 


0.000 
0.000 
0.001 
0.010 
0.049 


0.166 
0.399 
0.700 
0.925 
1.000 


0.000 
0.000 
0.000 
0.004 
0.020 


0.078 
0.224 
0.474 
0.756 
0.944 


1.000 


0.000 
0.000 
0.000 
0.001 
0.008 


0.034 
0.115 
0.287 
0.545 


0.000 
0.000 
0.001 
0.010 
0.056 


0.203 
0.497 
0.832 
1.000 


0.000 
0.000 
0.000 
0.003 
0.020 


0.086 
0.262 
0.564 
0.866 
1.000 


0.000 
0.000 
0.000 
0.001 
0.006 


0.033 
0.121 
0.322 
0.624 
0.893 


1.000 


0.000 
0.000 
0.000 
0.000 
0.002 


0.012 
0.050 
0.161 
0.383 


0.000 
0.000 
0.000 
0.000 
0.005 


0.038 
0.187 
0.570 
1.000 


0.000 
0.000 
0.000 
0.000 
0.001 


0.008 
0.053 
0.225 
0.613 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.002 
0.013 
0.070 
0.264 
0.651 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.003 
0.019 
0.090 


0.000 
0.000 
0.000 
0.000 
0.000 


0.006 
0.057 
0.337 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.001 
0.008 
0.071 
0.370 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.001 
0.012 
0.086 
0.401 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.002 
0.015 
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TABLA A.1 Distribución binomial acumulativa (continuación) 


n x 005 0.10 0.20 0.25 0.30 0.40 0.50 0.60 0.70 0.75 0.80 0.90 0.95 


11 1.000 1.000 1.000 1.000 1.000 0.999 0.994 0.970 0.887 0.803 0.678 0.303 0.102 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.996 0.980 0.958 0.914 0.686 0.431 


1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


0.540 0.282 0.069 0.032 0.014 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.882 0.659 0.275 0.158 0.085 0.020 0.003 0.000 0.000 0.000 0.000 0.000 0.000 
0.980 0.889 0.558 0.391 0.253 0.083 0.019 0.003 0.000 0.000 0.000 0.000 0.000 
0.998 0.974 0.795 0.649 0.493 0.225 0.073 0.015 0.002 0.000 0.000 0.000 0.000 
1.000 0.996 0.927 0.842 0.724 0.438 0.194 0.057 0.009 0.003 0.001 0.000 0.000 


1.000 0.999 0.981 0.946 0.882 0.665 0.387 0.158 0.039 0.014 0.004 0.000 0.000 
1.000 1.000 0.996 0.986 0.961 0.842 0.613 0.335 0.118 0.054 0.019 0.001 0.000 
1.000 1.000 0.999 0.997 0.991 0.943 0.806 0.562 0.276 0.158 0.073 0.004 0.000 
1.000 1.000 1.000 1.000 0.998 0.985 0.927 0.775 0.507 0.351 0.205 0.026 0.002 
1.000 1.000 1.000 1.000 1.000 0.997 0.981 0.917 0.747 0.609 0.442 0.111 0.020 


10 | 1.000 1.000 1.000 1.000 1.000 1.000 0.997 0.980 0.915 0.842 0.725 0.341 0.118 
11 | 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.986 0.968 0.931 0.718 0.460 
12 | 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


13 00.513 0.254 0.055 0.024 0.010 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.865 0.621 0.234 0.127 0.064 0.013 0.002 0.000 0.000 0.000 0.000 0.000 0.000 
0.975 0.866 0.502 0.333 0.202 0.058 0.011 0.001 0.000 0.000 0.000 0.000 0.000 
0.997 0.966 0.747 0.584 0.421 0.169 0.046 0.008 0.001 0.000 0.000 0.000 0.000 
1.000 0.994 0.901 0.794 0.654 0.353 0.133 0.032 0.004 0.001 0.000 0.000 0.000 


1 
2 
3 
4 
5 | 1.000 0.999 0.970 0.920 0.835 0.574 0.291 0.098 0.018 0.006 0.001 0.000 0.000 
6 
7 
8 


dh o 
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12 


1.000 1.000 0.993 0.976 0.938 0.771 0.500 0.229 0.062 0.024 0.007 0.000 0.000 
1.000 1.000 0.999 0.994 0.982 0.902 0.709 0.426 0.165 0.080 0.030 0.001 0.000 
1.000 1.000 1.000 0.999 0.996 0.968 0.867 0.647 0.346 0.206 0.099 0.006 0.000 
9 | 1.000 1.000 1.000 1.000 0.999 0.992 0.954 0.831 0.579 0.416 0.253 0.034 0.003 


10 | 1.000 1.000 1.000 1.000 1.000 0.999 0.989 0.942 0.798 0.667 0.498 0.134 0.025 
11 [| 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.987 0.936 0.873 0.766 0.379 0.135 
12 | 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.990 0.976 0.945 0.746 0.487 
13 | 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


14 0 |0.488 0.229 0.044 0.018 0.007 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
1 [0.847 0.585 0.198 0.101 0.047 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.000 
2 | 0.970 0.842 0.448 0.281 0.161 0.040 0.006 0.001 0.000 0.000 0.000 0.000 0.000 
3 [0.996 0.956 0.698 0.521 0.355 0.124 0.029 0.004 0.000 0.000 0.000 0.000 0.000 
4 | 1.000 0.991 0.870 0.742 0.584 0.279 0.090 0.018 0.002 0.000 0.000 0.000 0.000 
5 
6 
7 


1.000 0.999 0.956 0.888 0.781 0.486 0.212 0.058 0.008 0.002 0.000 0.000 0.000 
1.000 1.000 0.988 0.962 0.907 0.692 0.395 0.150 0.031 0.010 0.002 0.000 0.000 
1.000 1.000 0.998 0.990 0.969 0.850 0.605 0.308 0.093 0.038 0.012 0.000 0.000 
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0.05 


0.10 


0.20 


0.25 


0.30 


0.40 


0.60 


0.70 


0.75 


0.80 


0.90 


0.95 


14 


15 


16 


dd de dr o md md od 
WO XJO0U BAUN-=>0Uu DAUN-OoO 00-<XJ300U BhBUN-=0O0 BbBUuUuN-.Oo 0 00 


1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.463 
0.829 
0.964 
0.995 
0.999 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.440 
0.811 
0.957 
0.993 
0.999 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 


1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.206 
0.549 
0.816 
0.944 
0.987 


0.998 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.185 
0.515 
0.789 
0.932 
0.983 


0.997 
0.999 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 


1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.035 
0.167 
0.398 
0.648 
0.836 


0.939 
0.982 
0.996 
0.999 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.028 
0.141 
0.352 
0.598 
0.798 


0.918 
0.973 
0.993 
0.999 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 


0.998 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.013 
0.080 
0.236 
0.461 
0.686 


0.852 
0.943 
0.983 
0.996 
0.999 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.010 
0.063 
0.197 
0.405 
0.630 


0.810 
0.920 
0.973 
0.993 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 


0.992 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


0.005 
0.035 
0.127 
0.297 
0.515 


0.722 
0.869 
0.950 
0.985 
0.996 


0.999 
1.000 
1.000 
1.000 
1.000 


1.000 


0.003 
0.026 
0.099 
0.246 
0.450 


0.660 
0.825 
0.926 
0.974 
0.993 


0.998 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 


0.942 
0.982 


0.996 
0.999 
1.000 
1.000 
1.000 


0.000 
0.005 
0.027 
0.091 
0.217 


0.403 
0.610 
0.787 
0.905 
0.966 


0.991 
0.998 
1.000 
1.000 
1.000 


1.000 


0.000 
0.003 
0.018 
0.065 
0.167 


0.329 
0.527 
0.716 
0.858 
0.942 


0.981 
0.995 
0.999 
1.000 
1.000 


1.000 
1.000 


0.514 
0.721 


0.876 
0.960 
0.992 
0.999 
1.000 


0.000 
0.000 
0.000 
0.002 
0.009 


0.034 
0.095 
0.213 
0.390 
0.597 


0.783 
0.909 
0.973 
0.995 
1.000 


1.000 


0.000 
0.000 
0.000 
0.001 
0.005 


0.019 
0.058 
0.142 
0.284 
0.473 


0.671 
0.833 
0.935 
0.982 
0.997 


1.000 
1.000 


0.219 
0.416 


0.645 
0.839 
0.953 
0.993 
1.000 


0.000 
0.000 
0.000 
0.000 
0.001 


0.004 
0.015 
0.050 
0.131 
0.278 


0.485 
0.703 
0.873 
0.965 
0.995 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.002 
0.007 
0.026 
0.074 
0.175 


0.340 
0.550 
0.754 
0.901 
0.974 


0.997 
1.000 


0.112 
0.258 


0.479 
0.719 
0.899 
0.982 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.001 
0.004 
0.017 
0.057 
0.148 


0.314 
0.539 
0.764 
0.920 
0.987 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.002 
0.007 
0.027 
0.080 
0.190 
0.370 
0.595 
0.803 
0.937 


0.990 
1.000 


0.044 
0.130 


0.302 
0.552 
0.802 
0.956 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.001 
0.004 
0.018 
0.061 


0.164 
0.352 
0.602 
0.833 
0.965 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.001 
0.007 
0.027 


0.082 
0.202 
0.402 
0.648 
0.859 


0.972 
1.000 


0.001 
0.009 


0.044 
0.158 
0.415 
0.771 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.002 


0.013 
0.056 
0.184 
0.451 
0.794 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.001 


0.003 
0.017 
0.068 
0.211 
0.485 


0.815 
1.000 


0.000 
0.000 


0.004 
0.030 
0.153 
0.512 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.001 
0.005 
0.036 
0.171 
0.537 


1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.001 
0.007 
0.043 
0.189 


0.560 
1.000 
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0.05 0.10 0.20 0.25 0.30 0.40 0.50 0.60 0.70 0.75 0.80 0.9 0.95 


0.418 0.167 0.023 0.008 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.792 0.482 0.118 0.050 0.019 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.950 0.762 0.310 0.164 0.077 0.012 0.001 0.000 0.000 0.000 0.000 0.000 0.000 
0.991 0.917 0.549 0.353 0.202 0.046 0.006 0.000 0.000 0.000 0.000 0.000 0.000 
0.999 0.978 0.758 0.574 0.389 0.126 0.025 0.003 0.000 0.000 0.000 0.000 0.000 


1.000 0.995 0.894 0.765 0.597 0.264 0.072 0.011 0.001 0.000 0.000 0.000 0.000 
1.000 0.999 0.962 0.893 0.775 0.448 0.166 0.035 0.003 0.001 0.000 0.000 0.000 
1.000 1.000 0.989 0.960 0.895 0.641 0.315 0.092 0.013 0.003 0.000 0.000 0.000 
1.000 1.000 0.997 0.988 0.960 0.801 0.500 0.199 0.040 0.012 0.003 0.000 0.000 
1.000 1.000 1.000 0.997 0.987 0.908 0.685 0.359 0.105 0.040 0.011 0.000 0.000 


1.000 1.000 1.000 0.999 0.997 0.965 0.834 0.552 0.225 0.107 0.038 0.001 0.000 
1.000 1.000 1.000 1.000 0.999 0.989 0.928 0.736 0.403 0.235 0.106 0.005 0.000 
1.000 1.000 1.000 1.000 1.000 0.997 0.975 0.874 0.611 0.426 0.242 0.022 0.001 
1.000 1.000 1.000 1.000 1.000 1.000 0.994 0.954 0.798 0.647 0.451 0.083 0.009 
1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.988 0.923 0.836 0.690 0.238 0.050 


1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.981 0.950 0.882 0.518 0.208 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.992 0.977 0.833 0.582 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


0.397 0.150 0.018 0.006 0.002 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.774 0.450 0.099 0.039 0.014 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.942 0.734 0.271 0.135 0.060 0.008 0.001 0.000 0.000 0.000 0.000 0.000 0.000 
0.989 0.902 0.501 0.306 0.165 0.033 0.004 0.000 0.000 0.000 0.000 0.000 0.000 
0.998 0.972 0.716 0.519 0.333 0.094 0.015 0.001 0.000 0.000 0.000 0.000 0.000 


1.000 0.994 0.867 0.717 0.534 0.209 0.048 0.006 0.000 0.000 0.000 0.000 0.000 
1.000 0.999 0.949 0.861 0.722 0.374 0.119 0.020 0.001 0.000 0.000 0.000 0.000 
1.000 1.000 0.984 0.943 0.859 0.563 0.240 0.058 0.006 0.001 0.000 0.000 0.000 
1.000 1.000 0.996 0.981 0.940 0.737 0.407 0.135 0.021 0.005 0.001 0.000 0.000 
1.000 1.000 0.999 0.995 0.979 0.865 0.593 0.263 0.060 0.019 0.004 0.000 0.000 


1.000 1.000 1.000 0.999 0.994 0.942 0.760 0.437 0.141 0.057 0.016 0.000 0.000 
1.000 1.000 1.000 1.000 0.999 0.980 0.881 0.626 0.278 0.139 0.051 0.001 0.000 
1.000 1.000 1.000 1.000 1.000 0.994 0.952 0.791 0.466 0.283 0.133 0.006 0.000 
1.000 1.000 1.000 1.000 1.000 0.999 0.985 0.906 0.667 0.481 0.284 0.028 0.002 
1.000 1.000 1.000 1.000 1.000 1.000 0.996 0.967 0.835 0.694 0.499 0.098 0.011 


1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.992 0.940 0.865 0.729 0.266 0.058 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.999 0.986 0.961 0.901 0.550 0.226 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 0.998 0.994 0.982 0.850 0.603 
1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 


0.377 0.135 0.014 0.004 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 
0.755 0.420 0.083 0.031 0.010 0.001 0.000 0.000 0.000 0.000 0.000 0.000 0.000 


— 
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0.05 


0.933 
0.987 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.358 
0.736 
0.925 
0.984 
0.997 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.10 


0.705 
0.885 
0.965 


0.991 
0.998 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.122 
0.392 
0.677 
0.867 
0.957 


0.989 
0.998 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.20 


0.237 
0.455 
0.673 


0.837 
0.932 
0.977 
0.993 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.012 
0.069 
0.206 
0.411 
0.630 


0.804 
0.913 
0.968 
0.990 
0.997 


0.999 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.25 


0.111 
0.263 
0.465 


0.668 
0.825 
0.923 
0.971 
0.991 


0.998 
1.000 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.003 
0.024 
0.091 
0.225 
0.415 


0.617 
0.786 
0.898 
0.959 
0.986 


0.996 
0.999 
1.000 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.30 


0.046 
0.133 
0.282 


0.474 
0.666 
0.818 
0.916 
0.967 


0.989 
0.997 
0.999 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


0.001 
0.008 
0.035 
0.107 
0.238 


0.416 
0.608 
0.772 
0.887 
0.952 


0.983 
0.995 
0.999 
1.000 
1.000 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.40 


0.005 
0.023 
0.070 


0.163 
0.308 
0.488 
0.667 
0.814 


0.912 
0.965 
0.988 
0.997 
0.999 


1.000 
1.000 
1.000 
1.000 
1.000 


0.000 
0.001 
0.004 
0.016 
0.051 


0.126 
0.250 
0.416 
0.596 
0.755 


0.872 
0.943 
0.979 
0.994 
0.998 


1.000 
1.000 
1.000 
1.000 
1.000 


1.000 


0.60 


0.000 
0.000 
0.001 


0.003 
0.012 
0.035 
0.088 
0.186 


0.333 
0.512 
0.692 
0.837 
0.930 


0.977 
0.995 
0.999 
1.000 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.002 
0.006 
0.021 
0.057 
0.128 


0.245 
0.404 
0.584 
0.750 
0.874 


0.949 
0.984 
0.996 
0.999 
1.000 


1.000 


0.70 


0.000 
0.000 
0.000 


0.000 
0.001 
0.003 
0.011 
0.033 


0.084 
0.182 
0.334 
0.526 
0.718 


0.867 
0.954 
0.990 
0.999 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.001 
0.005 
0.017 


0.048 
0.113 
0.228 
0.392 
0.584 


0.762 
0.893 
0.965 
0.992 
0.999 


1.000 


0.75 


0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.002 
0.009 


0.029 
0.077 
0.175 
0.332 
0.535 


0.737 
0.889 
0.969 
0.996 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.001 
0.004 


0.014 
0.041 
0.102 
0.214 
0.383 


0.585 
0.775 
0.909 
0.976 
0.997 


1.000 


0.80 


0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.002 


0.007 
0.023 
0.068 
0.163 
0.327 


0.545 
0.763 
0.917 
0.986 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.001 


0.003 
0.010 
0.032 
0.087 
0.196 


0.370 
0.589 
0.794 
0.931 
0.988 


1.000 


0.90 


0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.002 
0.009 
0.035 


0.115 
0.295 
0.580 
0.865 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.002 
0.011 


0.043 
0.133 
0.323 
0.608 
0.878 


1.000 


0.95 


0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.002 


0.013 
0.067 
0.245 
0.623 
1.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.000 
0.000 
0.000 
0.000 
0.000 


0.003 
0.016 
0.075 
0.264 
0.642 


1.000 
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z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 


-3.6 | .0002 .0002 .0001  .0001  .0001  .0001  .0001  .0001  .0001  .0001 
-3.5 | .0002 .0002 .0002 .0002 .0002 .0002  .0002  .0002  .0002  .0002 
-3.4 | .0003  .0003 .0003 .0003  .0003 .0003  .0003 .0003  .0003  .0002 
-3.3 | .0005  .0005 .0005  .0004  .0004 .0004  .0004  .0004  .0004  .0003 
-3.2 | .0007 .0007 .0006  .0006  .0006  .0006  .0006  .0005  .0005  .0005 


-3.1 | .0010 .0009 .0009 .0009 .0008 .0008  .0008  .0008  .0007  .0007 
3.0 | .0013 .0013 .0013 .0012 .0012 .0011  .0011  .0011  .0010  .0010 
-2.9 | .0019 .0018 .0018 .0017 .0016  .0016  .0015  .0015  .0014  .0014 
-2.8 | .0026 .0025 .0024 .0023 .0023 .0022 .0021  .0021  .0020  .0019 
-2.7 | .0035  .0034 .0033 .0032 .0031  .0030  .0029 .0028  .0027  .0026 


-2.6 | .0047  .0045  .0044 .0043  .0041  .0040  .0039 .0038  .0037  .0036 
-2.5 | .0062  .0060  .0059 .0057 .0055  .0054  .0052  .0051  .0049  .0048 
-2.4 | .0082  .0080  .0078 .0075  .0073  .0071  .0069  .0068  .0066  .0064 
-2.3 | .0107 .0104 .0102 .0099 .0096 .0094  .0091  .0089  .0087  .0084 
-2.2 | .0139 .0136 .0132 .0129 .0125 .0122 .0119 .0116  .0113  .0110 


-2.1 | .0179 .0174 .0170 .0166 .0162 .0158 .0154  .0150  .0146  .0143 
-2.0 | .0228 .0222 .0217 .0212 .0207 .0202 .0197 .0192  .0188  .0183 
-1.9 | .0287 .0281 .0274 .0268  .0262  .0256  .0250 .0244  .0239  .0233 
-1.8 | .0359 .0351 .0344 .0336 .0329 .0322 .0314 .0307 .0301  .0294 
1.7 | .0446  .0436  .0427  .0418  .0409 .0401  .0392  .0384  .0375  .0367 


-1.6 | .0548  .0537 .0526  .0516  .0505  .0495  .0485  .0475  .0465  .0455 
1.5 | .0668  .0655  .0643  .0630  .0618  .0606  .0594  .0582  .0571  .0559 
1.4 | .0808  .0793  .0778  .0764  .0749  .0735  .0721  .0708  .0694  .0681 
-1.3 | .0968 .0951  .0934  .0918 .0901  .0885  .0869  .0853  .0838  .0823 
1.2 | .1151.  .1131. .1112 .1093 .1075  .1056 .1038 .1020  .1003  .0985 


-1.1 | .1357 .1335 .1314 .1292 .1271 .1251 .1230 .1210 .1190  .1170 
=1.0 | .1587 .1562 .1539 .1515 .1492 .1469  .1446 .1423  .1401  .1379 
0.9 | .1841  .1814 .1788 .1762 .1736  .1711 .1685  .1660  .1635  .l611 
0.8 | .2119 .2090 .2061  .2033 .2005 .1977 .1949 .1922 .1894  .1867 
0.7 | 2420  .2389 .2358 .2327 .2206 .2266 .2236 .2206  .2177  .2148 


0.6 | .2743 .2709 .2676  .2643 .2611 .2578 .2546 .2514 .2483  .2451 
0.5 | .3085  .3050 .3015 .2981 .2946 .2912 .2877 .2843  .2810  .2776 
0.4 | .3446  .3409 .3372 .3336 .3300 .3264 .3228 .3192 .3156  .3121 
-0.3 | .3821  .3783 .3745  .3707 .3669 .3632 .3594 .3557 .3520  .3483 
-0.2 | .4207 .4168 4129 .4090 .4052 .4013 .3974 .3936  .3897  .3859 


0.1 | .4602  .4562 .4522 .4483  .4443 4404 .4364 .4325 .4286  .4247 
0.0 | .5000  .4960 .4920 .4880 .4840 .4801  .4761  .4721  .4681  .4641 
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TABLA A.2 Distribución normal acumulativa (continuación) 

| 
0 z 

Z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 
0.0 | .5000  .5040  .5080  .5120 5160 .5199 5239  .5279 5319  .5359 
0.1 .5398 .5438 .5478  .35517 5557 6.5596 .5636  .5675  .5714  .5753 
0.2 | .5793 .5832  .5871 .5910 5948 .5987  .6026  .6064  .6103  .6141 
0.3 | .6179 .6217 .6255  .6293  .6331 .6368  .6406  .6443  .6480  .6517 
0.4 | .6554  .6591 .6628  .6664 6700  .6736  .6772  .6808  .6844  .6879 
0.5 | .6915 .6950  .6985  .7019  .7054  .7088  .7123  .7157  .7190  .7224 
0.6 | .7257  .7291 .1324 — .71357 7389 7422 7454  /7486  .7517  .7549 
0.7 | .7580  .7611 .1642  .7673 T104 1734 7164  .77194 7823  .7852 
0.8 | .7881  .7910  .7939  .7967  .7995  .8023  .8051  .8078  .8106  .8133 
0.9 | .8159  .8186  .8212  .8238 8264  .8289  .8315  .8340  .8365  .8389 
1.0 | .8413 .8438  .8461 .8485 8508  .8531 .8554  .8577  .8599  .8621 
1.1 .8643  .8665  .8686  .8708 8729  .8749  .8770  .8790  .8810  .8830 
1.2 | .8849 .8869  .8888  .8907  .8925  .8944  .8962  .8980  .8997  .9015 
1.3 | .90032 .9049 .9066 .9082 .9099  .9115  .9131 .9147 .9162  .9177 
1.4 | 9192 .9207 .9222 .9236  .9251 .9265  .9279 .92902  .9306  .9319 
1.5 | .9332 .9345  .9357  .9370 9382 .9394 .9406 .9418 .9429 944] 
1.6 | .9452 .9463 .9474  .9484 9495  .9505  .9515  .9525  .9535  .9545 
1.7 | .9554 .9564  .9573  .9582  .9591 .9599  .9608  .9616  .9625  .9633 
1.8 | .90641 .9649  .9656  .9664 9671 .9678  .9686  .9693  .9699  .9706 
1.9 | .9713 .9719 .9726 .9732 .9738  .9744  .9750  .9756  .9761 .9767 
2.0 | .9772 .9778  .9783  .9788  .9793  .9798  .9803  .9808  .9812  .9817 
2.1 .9821  .9826  .9830 .9834  .9838  .9842  .9846  .9850  .9854  .9857 
2.2 | .9861 .9864  .9868  .9871 .9875  .9878  .988l  .9884  .9887  .9890 
2.3 | .9893 .9896  .9898  .9901 .9904 6.9906 .9909 9911 .9913  .9916 
2.4 | 9918 .9920 .9922 .9925  .9927 9929 .9931  .9932 .9934  .9936 
2.5 | .9938  .9940  .9941 .9943 .9945 9046  .99048  .9949  .9951 .9952 
2.6 | .9953 .9955  .9956  .9957  .9959  .9960  .9961  .9062  .99063  .9964 
2.7 | .9965 .99066  .9967  .9968  .9969  .9970  .9971  .9972  .9973  .9974 
2.8 | .9974 .9975  .9976  .9977  .9977  .9978  .9979  .9979  .9980 .9981 
2.9 | .9981 .9982 .9982  .9983  .90084  .9984  .9985  .9085  .9086  .9986 
3.0 | .9987  .9987  .9987  .9988  .909088  .9989  .9989  .90089  .99000  .9990 
3.1 .9990  .9991 .9991 .9991 .9992 .9992 9902 99092  .9993 .9993 
3.2 | .99903 .9993  .99904 99904 9994 990904 99094 9995 90905 99095 
3.3 | .99905 .9995 .9995 9006 .990906 .99096  .99006  .90906  .9996  .9997 
3.4 | .9997 .9997 9997 9997 9997 9997  .99097  .9997  .9997  .9998 
3.5 | .9998 .9998  .9998  .9008  .9998  .9998  .990908  .99098  .9998  .9998 
3.6 | .9998 .9998 .9999 99099 9999 9999 99099 99099 9999  .9999 
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TABLA A.3 Puntos porcentuales superiores para la distribución t de Student 


0 t 
Q 

v 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.001 0.0005 
1 | 0.325 1.000 3.078 6.314 12.706 31.821 63.657 318.309 636.619 
2 | 0.289 0.816 1.886 2.920 4.303 6.965 9.925 22.327 31.599 
3 | 0.277 0.765 1.638 2.353 3.182 4.541 5.841 10.215 12.924 
4 | 0.271 0.741 1.533 2.132 2.776 3.747 4.604 7.173 8.610 
5 | 0.267 0.727 1.476 2.015 2.571 3.365 4.032 5.893 6.869 
6 | 0.265 0.718 1.440 1.943 2.447 3.143 3.707 5.208 5.959 
7 | 0.263 0.711 1.415 1.895 2.365 2.998 3,499 4.785 5.408 
8 0.262 0.706 1.397 1.860 2.306 2.896 3.355 4.501 5.041 
9 | 0.261 0.703 1.383 1.833 2.262 2.821 3.250 4.297 4.781 
10 | 0.260 0.700 1.372 1.812 2.228 2.764 3.169 4.144 4.587 
11 | 0.260 0.697 1.363 1.796 2.201 2.718 3.106 4.025 4.437 
12 | 0.259 0.695 1.356 1.782 2.179 2.681 3.055 3.930 4.318 
13 0.259 0.694 1.350 1.771 2.160 2.650 3.012 3.852 4.221 
14 | 0.258 0.692 1.345 1.761 2.145 2.624 2.977 3.787 4.140 
15 | 0.258 0.691 1.341 1.753 2.131 2.602 2.947 3.733 4.073 
16 0.258 0.690 1.337 1.746 2.120 2.583 2:921 3.686 4.015 
17 | 0.257 0.689 1.333 1.740 2.110 2.567 2.898 3.646 3.965 
18 | 0.257 0.688 1.330 1.734 2.101 2.332 2.878 3.610 3.922 
19 | 0.257 0.688 1.328 1.729 2.093 2.539 2.861 3.579 3.883 
20 | 0.257 0.687 1.325 1.725 2.086 2.528 2.845 3.332 3.850 
21 | 0.257 0.686 1.323 1.721 2.080 2.518 2.831 3.527 3.819 
22 | 0.256 0.686 1.321 1.717 2.074 2.508 2.819 3.505 3.792 
23 | 0.256 0.685 1.319 1.714 2.069 2.500 2.807 3.485 3.768 
24 | 0.256 0.685 1.318 1.711 2.064 2.492 2.797 3.467 3.745 
25 | 0.256 0.684 1.316 1.708 2.060 2.485 2.787 3.450 3.725 
26 | 0.256 0.684 1.315 1.706 2.056 2.479 2.779 3.435 3.707 
27 | 0.256 0.684 1.314 1.703 2.052 2,473 2.171 3.421 3.690 
28 | 0.256 0.683 1.3313 1.701 2.048 2.467 2.763 3.408 3.674 
29 | 0.256 0.683 1.311 1.699 2.045 2.462 2.756 3.396 3.659 
30 | 0.256 0.683 1.310 1.697 2.042 2.457 2.750 3.385 3.646 
35 | 0.255 0.682 1.306 1.690 2.030 2.438 2.724 3.340 3.591 
40 0.255 0.681 1.303 1.684 2.021 2,423 2.704 3.307 3.551 
60 | 0.254 0.679 1.2906 1.671 2.000 2.390 2.660 3.232 3.460 
120 0.254 0.677 1.289 1.658 1.980 2.358 2.617 3.160 3.373 
00 0.253 0.674 1.282 1.645 1.960 2.326 2.576 3.090 3.291 
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TABLA A.4 Puntos críticos para la prueba de rango con signo de Wilcoxon 
Q QQ 
Sbajo Salto 
n Shajo Salto a n Shajo Salto Q n Sbajo Salto a n Shajo Salto a 
1 9 0.1250 ||10 15 40 0.1162 12 79 0.0085 35 118 0.0253 
0 10 0.0625 14 41 0.0967 10 81 0.0052 34 119 0.0224 
5. 3 12 01562 11 44 0.0527 9 82 0.0040 28 125 0.0101 
2 13 0.0938 10 45 004014 32 73 0.1083 27 126 0.0087 
1 14 0.0625 9 46 0.0322 31 74 0.0969 24 129 0.0055 
0 15 0.0312 8 47 0.0244 26 79 0.0520 23 130 0.0047 
6 4 17 0.1094 E Ds oe 25 80 0.0453 l18 56 115 0.1061 
3 18 0.0781 A EL 0 22 83 0.0290 55 116 0.0982 
2 19 0.0469 Ñ 21 84 0.0247 48 123 0.0542 
1. 20 00312 3 52 0.0049 16 89 0.0101 47 124 0.0494 
o 21 00156 ll 18 48 0.1030 15 90 0.0083 41 130 0.0269 
17 49 0.0874 13 92 0.0054 40 131 0.0241 
? A > pde 14 52 0.0508 12 93 0.0043 33 138 0.0104 
4 24 0.0547 13 93 0.0415 | 15 37 83 0.1039 32 139 0.0091 
3 25 0.0391 11 55 0.0269 36 84 0.0938 28 143 0.0052 
2 26 0.0234 10 56 0.0210 31 89 0.0535 27 144 0.0045 
1 27 0.0156 ss PS Ae 30 9 0.0473 19 63 127 0.1051 
0 28 0.0078 E o ue A E pei 62 128 0.0978 
' . 54 136 0.0521 
8 9 27 0.1250 
8 28 0.0977 E A 20 100 0.0108 53 137 0.0478 
6 30 o0s471!12 2 56 0.1018 19 101 0.0090 47 143 0.0273 
5 31 00391 21. 57 0.0881 l6 104 0.0051 46 144 0.0247 
4 32 0.0273 18 60 0.0549 is] 105 0.0042 38 152 0.0102 
3.33 00195 17 61 0.0461 |16 43 93 0.1057 37 153 0.0090 
2.34 00117 14 64 0.0261 42 94 0.0964 33 157 0.0054 
1 35 0.0078 13 65 0.0212 36 100 0.0523 32 158 0.0047 
0 36 0.0039 E do UE 35 101 0.0467 29 70 140 0.1012 
9 11 34 01016 A 30 106 0.0253 69 141 00947 
10.35 0.0820 E E O 29 107 0.0222 61 149 0.0527 
9 36 0.0645 1 TE UNS e A E es 60 150 0.0487 
8 37 0.0488 | 13 27 64 0.1082 > 53 157 0.0266 
6 39 0.0273 26 65 0.0955 6 di. a 52 158 0.0242 
S 40 0.0195 22 69 0.0549 Ñ 44 166 0.0107 
4 41 0.0137 21 70 0.0471 17 49 104 0.1034 43 167 0.0096 
3 42 0.0098 18 73 0.0287 48 105 0.0950 38 172 0.0053 
2 43 0.0059 17 74 0.0239 42 111 0.0544 37 173 0.0047 
1 44 0.0039 13 78 0.0107 41 112 0.0492 


Para n > 20, calcule z = JD D/A 


Sy —n(n+1)/4 


y utilice la tabla z (tabla A.2). 
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TABLA A.5 Puntos críticos para la prueba de rango-suma de Wilcoxon 


W bajo Walto 
mn Wbajo Walto Q man Wbajo Walto Q mn Whajo Walto Q mn Wbajo Walto Q 
25 4 12 0.0952 11. 29 0.0159 7 22 43 0.0530 30 60 0.0296 
3 13 0.0476 10 30 0.0079 21 44 0.0366 29 61 0.0213 
6 4 14 0.0714 6 14 30 0.0571 20 45 0.0240 28 62 0.0147 
3 15 0.0357 13 31 0.0333 19 46 0.0152 27 63 0.0100 
7 4 16 0.0556 12 32 0.0190 18 47 0.0088 26 64 0.0063 
3 17 0.0278 11. 33 0.0095 17 48 0.0051 25 65 0.0040 
8 5 17 0.0889 10 34 0.0048 16 49 0.0025 
4 18 0.0444 7 15 33 0.0545 8 24 46 00637 ||? ? 40 65 0.0641 
3 19 0.0222 14 34 0.0364 23 47 0.0466 E a o 
34 7 17 0.0571 PN e E OOO 36 69 0.0189 
12 36 0.0121 21 49 0.0225 
6 18 0.0286 35 70 0.0131 
11. 37 0.0061 20 50 0.0148 
5 8 19 0.0714 34 71 0.0087 
10 38 0.0030 19 51 0.0093 
7 20 0.0357 33 72 0.0055 
8 16 36 0.0545 18 52 0.0054 
6 21 0.0179 13 37 0 a 2 0 32 73 0.0035 
6 9 21 0.0833 A Se 0 ' 8 42 70 0.0603 
S 2 400 13 39 00141 || 6 6 29 49 0.0660 2 1 
7 23 0.0238 39 73 0.0270 
12 40 0.0081 28 50 0.0465 
7 9 24 0.0583 38 74 0.0200 
11 41 0.0040 27 51 0.0325 
8 25 0.0333 26 52 00206 36 76 0.0103 
a EE E E 
8 10 26 0.0667 a a. e O 
9 27 0044 18 37 0.0278 23 55 0.0043| 8 8 52 84 0.0524 
17 38 0.0159 7 30 54 0.0507 Sl 85 0.0415 
8 28 0.0242 
16 39 0.0079 29 55 0.0367 50 86 0.0325 
7 29 0.0121 
6 30 00061 15 40 0.0040 28 56 0.0256 49 87 0.0249 
6 21 39 0.0628 27 57 0.0175 46 90 0.0103 
4 4 12 24 0.0571 20 40 0.0411 26 58 0.0111 45 91 0.0074 
11. 25 0.0286 19 41 0.0260 25 59 0.0070 44 92 0.0052 
10 26 0.0143 18 42 0.0152 24 60 0.0041 43 93 0.0035 
5 13 27 0.0556 17 43 0.0087 8 32 58 0.0539 
12 28 0.0317 16 44 0.0043 31 59 0.0406 


Cuando tanto m como n sean mayores que 8, calcule z = Fran Y utilice la tabla z (tabla A.2). 


W —m(m+n+1)/2 
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TABLA A.6 Puntos porcentuales superiores para la distribución e 

Q 
Ma 

v 0.995 0.99 0.975 0.95 0.90 0.10 0.05 0.025 0.01 0.005 
1 0.000 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635 7.879 
2 | 0.010 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210 10.597 
3 | 0.072 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345 12.838 
4 | 0.207 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277 14.860 
51 0412 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086 16.750 
6 | 0.676 0.872 1.237 1.635 2.204 10.645 12.592 14449 16.812 18.548 
7 | 0.989 1.239 1.690 2.167 2.833 12.017 14.067 16.013 18.475 20.278 
8 1.344 1.646 2.180 2.733 3.490 13.362 15.507 17.535 20.090 21.955 
9 1.735 2.088 2.700 3.325 4.168 14.684 16.919 19.023 21.666 23.589 
10 | 2.156 2.558 3.247 3.940 4.865 15.987 18.307 20.483 23.209 25.188 
11 2.603 3.053 3.816 4,575 5.578 17.275 19.675 21920 24.725 26.757 
12 | 3.074 3.571 4.404 5.226 6.304 18.549 21.026 23.337 26.217 28.300 
13 | 3.565 4.107 5.009 5.892 7.042. 19.812 22.362 24.736 27.688 29.819 
14 | 4.075 4.660 5.629 6.571 7.790. 21.064 23.685 26.119 29.141 31.319 
15 | 4.601 5.229 6.262 7.261 8.547 22.307 24.996 27.488 30.578 32.801 
16 | 5.142 5.812 6.908 7.962 9.312 23.542 26.206 28.845 32.000 34.267 
17 | 5.697 6.408 7.564 8.672 10.085 24.769 27.587 30.191 33.409 35.718 
18 | 6.265 7.015 8.231 9.390 10.865 25.989 28.869 31.526 34.805 37.156 
19 | 6.844 7.633 8.907 10.117 11.651 27.204 30.144 32.852 36.191 38.582 
20 | 7.434 8.260 9.591 10.851 12.443 28.412 31410 34.170 37.566 39.997 
21 8.034 8.897 0.283 11.591 13.240 29.615 32.671 35.479 38.932 41.401 
22 | 8.643 9.542 0.982 12.338 14.041 30.813 33.924 36.781 40.289 42.796 
23 | 9260 10.19 1.689 13.091 14.848 32.007 35.172 38.076 41.638 44.181 
24 | 9886 10.856 2.401 13.848 15.659 33.196 36.415 39.364 42.980 45.559 
25 | 10.520 11.524 3.120 14.611 16.473 34.382 37.652 40.646 44314 46.928 
26 | 11.160 12.198 3.844 15.379 17.292 35.563 38.885 41.923 45.642 48.290 
27 | 11.808 12.879 4.573 16.151 18.114 36.741 40.113 43.195 46.963 49.645 
28 | 12.461 13.565 5.308 16.928 18.939 37.916 41.337 44461 48.278 50.993 
29 | 13.121 14.256 6.047 17.708 19.768 39.087 42557 45.722 49.588 52.336 
30 | 13.787 14.953 6.791 18.493 20.599 40.256 43.773 46.979 50.892 53.672 
31 | 14458 15.655 7.539 19.281 21434 41.422 44985 48.232 52.191 55.003 
32 | 15.134 16.362 8.291 20.072 22.271 42.585 46.194 49.480 53.486 56.328 
33 | 15.815 17.074 19.047 20.867 23.110 43.745 47.400 50.725 54.776 57.648 
34 | 16.501 17.789 9.806 21.664 23952 44903 48.602 51.966 56.061 58.964 
35 | 17.192 18.509 20.569 22.465 24.797 46.059 49.802 53.203 57.342 60.275 
36 | 17.887 19233 21.336 23.269 25.643 47.212 50.998 54.437 58.619 61.581 
37 | 18.586 19960 22.106 24.075 26.492 48.363 52.192 55.668 59.893 62.883 
38 | 19289 20.691 22.878 24.884 27.343 49.513 53.384 56.896 61.162 64.181 
39 | 19996 21.426 23.654 25.695 28.196 50.660 54.572 58.120 62.428 65.476 
40 | 20.707 22.164 24.433 26.509 29.051 51.805 55.758 59.342 63.691 66.766 


Para v > 40, x?, = 0.5(Z4 + V2v— D. 
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TABLA A.7 Puntos porcentuales superiores para la distribución F 


0 Fr 79,0 
4 
V Q 1 2 3 4 > 6 7 8 9 
1 0.100| 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 
0.050 | 161.45 199.50 215.71 224.58 230.16 233.99 236.77 238.88 240.54 
0.010 |4052.18 4999.50 5403.35 5624.58 5763.65 5858.99 5928.36 5981.07 6022.47 
0.001| 405284 500012 540382 562501 576405 585938 592874 598144 603040 
2 0.100 8.53 9.00 9.16 9.24 9.29 9.33 9:33 9.37 9.38 
0.050| 18.51 1900 1916 1925 1930 1933 19.35 19.37 19.38 
0.010| 98.50 9900 99.17 99.25 99.30 99.33 9936 99,37 99.39 
0.001 | 998.50 999.00 999.17 999.25 999.30 999,33 999.36 999,37 999,39 
3 0.100 5.54 5.46 5.39 5.34 5.31 5.28 5.27 3:29 5.24 
0.050 | 10.13 9.55 9.28 9.12 9.01 8.94 8.89 8.85 8.81 
0.010| 34.12 30.82. 2946 28.71 28.24 27.91 27.67 27.49 27.35 
0.001| 167.03 148.50 141.11 137.10 134.58 132.85 131.58 130.62 129.86 
4 0.100 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 
0.050 7.71 6.94 6.59 6.39 6.26 6.16 6.09 6.04 6.00 
0.010| 2120 18.00 16.69 15.98 15.52 15.21 14.98 14.80 14.66 
0.001| 74.14 61.25 56.18 53.44 51.71 50.53 49.66 49.00 48.47 
5 0.100 4.06 3.78 3.62 3.52 3.45 3.40 3.37 3.34 3.32 
0.050 6.61 5.79 5.41 5.19 5.05 4.95 4.88 4.82 4.77 
0.010| 16.26 13.27 1206 11.39 10.97 10.67 10.46 10.29 10.16 
0.001| 47.18 37.12 3320 31.009 29.75 28.83 28.16 27.65 27.24 
6 0.100 3.78 3.46 3.29 3.18 3.11 3.05 3.01 2.98 2.96 
0.050 5.99 5.14 4.76 4.53 4,39 4.28 4.21 4.15 4.10 
0.010| 13.75 10.92 9.78 9.15 8.75 8.47 8.26 8.10 7.98 
0.001| 35.51 27.00 23.70 21.92 20.80 20.03 1946 19.03 18.69 
7 0.100 3.59 3.26 3.07 2.96 2.88 2.83 2.78 2.75 2.72 
0.050 5.59 4.74 4.35 4.12 3.97 3.87 3.79 3.13 3.68 
0.010| 12.25 9.55 8.45 7.85 7.46 7.19 6.99 6.84 6.72 
0.001| 2925 21.69 18.77 1720 16.21 15.52 15.02 14.63 14.33 
8 0.100 3.46 3.11 2.92 2.81 2.73 2.67 2.62 2.59 2.56 
0.050 5:32 4.46 4.07 3.84 3.69 3.58 3.50 3.44 3.39 
0.010| 11.26 8.65 7.59 7.01 6.63 6.37 6.18 6.03 5.91 
0.001| 25.41. 1849 1583 1439 1348 1286 1240 12.05 11.77 
9 0.100 3.36 3.01 2.81 2.69 2.61 2.55 2.51 2.47 2.44 
0.050 3:12 4.26 3.86 3.63 3.48 3.37 3.29 3.23 3.18 
0.010| 10.56 8.02 6.99 6.42 6.06 5.80 5.61 5.47 5.35 
0.001| 22.86 16.39 1390 12.56 11.71 11.13 10.70 10.37 10.11 
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APÉNDICE A Tablas 777 


TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


4] 


v Q 10 12 15 20 25 30 40 50 60 


1 0.100| 60.19 60.71 61.22 61.74 62.05 62.226 62.53 62.69 62.79 
0.050| 241.88 243.91 245.95 248.01 249.26 250.10 251.14 251.77 252.20 
0.010|6055.85 6106.32 6157.29 6208.73 6239.83 6260.65 6286.78 6302.52 6313.03 
0.001| 606316 611276 616292 621362 624430 626486 659725 660511 6610390 


2 0.100 9.39 9.41 9.42 9.44 9.45 9.46 9.47 9.47 9.47 
0.050| 1940 1941 1943 1945 1946 1946 19.47 19.48 19.48 
0.010| 9940 9942 99.43 9945 9946 99.47 99.47 99.48 99.48 
0.001| 999.40 999.42 999,43 999.45 999.46 999.47 999.47 99948 999.48 


3 0.100 5.23 5.22 5.20 5.18 5.17 3.17 5.16 5.15 JLS 
0.050 8.79 8.74 8.70 8.66 8.63 8.62 8.59 8.58 8.57 
0.010| 27.23 27.05 26.87 26.69 26.58 26.50 26.41 26.35 26.32 
0.001| 129.25 128.32 127.37 126.42 125.84 125.45 124.96 124.66 124.47 


4 0.100 3.92 3.90 3.87 3.84 3.83 3.82 3.80 3.80 3.79 
0.050 5.96 5.91 5.86 5.80 3.17 5.75 5.72 5.70 5.69 
0.010| 1455 14.37 1420 1402 13.91 13.84 13.75 13.69 13.65 
0.001| 48.05 47.41 46.76 46.10 45.70 45.43 45.09 44.88 44.75 


5 0.100 3.30 3.21 3.24 dal 3.19 3.17 3.16 3.15 3.14 
0.050 4.74 4.68 4.62 4.56 4.52 4.50 4.46 4,44 4,43 
0.010| 10.05 9.89 97.2 9:35 9.45 9.38 9.29 9.24 9.20 
0.001| 26.92 26.42 25.91 25.339 25.08 24.87 24.60 24.44 24,33 


6 0.100 2.94 2.90 2.87 2.84 2.81 2.80 2.78 2.14 2.76 
0.050 4.06 4.00 3.94 3.87 3.83 3.81 En 3:13 3.74 
0.010 7.87 7.72 7.56 7.40 7.30 7.23 7.14 7.09 7.06 
0.001| 18.41 17.99 1756 17.12 16.85 16.67 16.44 16.31 16.21 


7 0.100 2.70 2.61 2.63 2.59 2.57 2.56 2.54 2.32 2.51 
0.050 3.64 3:37 3.51 3.44 3.40 3.38 3.34 3.32 3.30 
0.010 6.62 6.47 6.31 6.16 6.06 5.99 5.91 5.86 5.82 
0.001| 14.08 13.71 13.32 1293 12.69 12.53 12.33 12.20 12.12 


8 0.100 2.54 2.50 2.46 2.42 2.40 2.38 2.36 23) 2.34 
0.050 3.39 3.28 3.22 3.15 3.11 3.08 3.04 3.02 3.01 
0.010 5.81 5.67 5.52 5.36 5.26 5.20 5.12 5.07 5.03 
0.001| 11.54 11.19 10.84 10.48 10.26 10.11 9.92 9.80 9.73 


9 0.100 2.42 2.38 2.34 2.30 2.27 2.23 2.29 2.22 2.21 
0.050 3.14 3.07 3.01 2.94 2.89 2.86 2.83 2.80 2.79 
0.010 5.26 5.11 4.96 4.81 4.71 4.65 4.57 4.52 4.48 
0.001 9.89 9.57 9.24 8.90 8.69 8.55 8.37 8.26 8.19 
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APÉNDICE A Tablas 


TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


Ya 


v, Q 1 2 3 4 5 6 7 8 9 
10 0.100 3.29 2.92 2.73 2.61 2:32 2.46 2.41 2.38 2.35 
0.050 4.96 4.10 3.71 3.48 3.33 3.22 3.14 3.07 3.02 
0.010 10.04 7.56 6.55 5.99 5.64 339 520 5.06 4.94 
0.001 21.04 14.91 12.55 11.28 10.48 9.93 9.52 9.20 8.96 
11 0.100 3.23 2.86 2.66 2.54 2.45 2:39 2.34 2.30 2.27 
0.050 4.84 3.98 3:59 3.36 320 3.09 3.01 2.95 2.90 
0.010 9.65 7.21 6.22 5.67 5.32 5.07 4.89 474 4.63 
0.001 19.69 13.81. 11.56 10.35 958 905 8.66 8.35 8.12 
12 0.100 3.18 2.81 2.61 2.48 2.39 2.33 2.28 2,24 2.21 
0.050 4.75 3.89 3.49 3.26 3.11 3.00 2.91 2.85 2.80 
0.010 9.33 6.93 5.95 5.41 5.06 482 4.64 450 4.39 
0.001 | 1864 12.97 10.80 9.63 8.89 8.38 8.00 7.71 7.48 
13 0.100 3.14 2.76 2.56 2.43 2.39 2.28 2.23 2.20 2.16 
0.050 4.67 3.81 3.41 3.18 3.03 2.92 2.83 2.17 2.71 
0.010 9.07 6.70 5.74 5.21 486 462 444 430 4.19 
0.001 17.82 12.31 10.21 9.07 8.35 786 7.49 7.21 6.98 
14 0.100 3.10 2:13 2.32 2.39 2.31 2.24 2.19 2.15 2.12 
0.050 4.60 3.74 3.34 3.11 2.96 2.85 2.76 2.710 2.65 
0.010 8.86 6.51 5.56 5.04 4.69 446 4.28 4.14 4.03 
0.001 | 17.14 11.78 9.73 8.62 7.92 744 7.08 6.80 6.58 
15 0.100 3.07 2.70 2.49 2.36 2.21 2.21 2.16 2,12 2.09 
0.050 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 
0.010 8.68 6.36 5.42 4.89 456 432 4.14 4.00 3.89 
0.001 | 16.59 11.34 9.34 8.25 7.57 709 6.74 6.47 6.26 
16 0.100 3.05 2.67 2.46 2.33 224 2.18 2.13 2.09 2.06 
0.050 4,49 3.63 3.24 3.01 2.85 2.714 2.66 2.59 2.54 
0.010 8.53 6.23 5.29 4.77 444 420 4.03 3.89 3.78 
0.001 16.12 10.97 9.01 7.94 7.27 6.80 6.46 6.19 5.98 
17 0.100 3.03 2.64 2.44 2:31 2.22 2.15 2.10 2.06 2.03 
0.050 4.45 3:99 3.20 2.96 2.81 2.70 2.61 2.55 2.49 
0.010 8.40 6.11 5.18 4.67 434 4.10 3.93 3.79 3.68 
0.001 | 15.72 10.66 8.73 7.68 7.02 656 6.22 5.96 5.75 
18 0.100 | 301. 262 242 229 220 213 208 2.04 2.00 
0.050 | 441 355 3.16 293 277 266 258 251 246 
0.010 | 829 601. 509 458 425 401 384 3.71 3.60 
0.001 | 15.38 10.39 8.49 7.46 6.81 6.35 6.02 5.76 5.56 
19 0.100 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 
0.050 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2,48 2.42 
0.010 8.18 5.93 5.01 4.50 417 3.94 3.77 3.63 3.52 
0.001 | 15.08 10.16 8.28 7.27 6.62 6.18 5.85 5.59 5.39 
20 0.100 | 297 259 238 225 216 209 204 200 1.96 
0.050 | 435 349 3.10 287 2.71 260 251 245 2.39 
0.010 8.10 5.85 4.94 4,43 410 3.87 3.70 3.56 3.46 
0.001 | 1482 995 810 7.10 646 602 569 544 5.24 
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TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


Ya 
v, 107 10 12 15 20 25 30 40 50 60 


10 0.100 2.32 2.28 2,24 2.20 2.17 2.16 2.13 2.12 2.11 
0.050 2.98 2.91 2.85 2.17 2.73 2.70 2.66 2.64 2.62 
0.010 4.85 4.71 4.56 4.41 4.31 4.25 4.17 4.12 4.08 
0.001 8.75 8.45 8.13 7.80 7.60 7.47 7.30 7.19 7.12 
11 0.100 2.25 221 2.17 2.1, 2.10 2.08 2.05 2.04 2.03 
0.050 2.85 2.79 2.72 2.65 2.60 2.34 2.53 2.51 2.49 
0.010 4.54 4.40 4.25 4.10 4.01 3.94 3.86 3.81 3.78 
0.001 7.92 7.63 1.32 7.01 6.81 6.68 6.52 6.42 6.35 
12 0.100 2.19 2.15 2.10 2.06 2.03 2.01 1.99 1.97 1.96 
0.050 2.75 2.69 2.62 2.54 2.50 2.47 2.43 2.40 2.38 
0.010 4.30 4.16 4.01 3.86 3.76 3.70 3.62 3.57 3.54 
0.001 1,29 7.00 6.71 6.40 6.22 6.09 5.93 5.83 5.76 
13 0.100 2.14 2.10 2.05 2.01 1.98 1.96 1.93 1.92 1.90 
0.050 2.67 2.60 2.53 2.46 2.41 2.38 2.34 2.31 2.30 
0.010 4.10 3.96 3.82 3.66 3.57 3:01 3.43 3.38 3.34 
0.001 6.80 6.52 6.23 3.93 5.75 5.63 5.47 3137 5.30 
14 0.100 2.10 2.05 2.01 1.96 1.93 1.91 1.89 1.87 1.86 
0.050 2.60 2.53 2.46 2.39 2.34 2.31 2.27 2.24 2.22 
0.010 3.94 3.80 3.66 3.51 3.41 3,9 3.27 3,22 3.18 
0.001 6.40 6.13 5.85 5.56 5.38 3,25 5.10 5.00 4.94 
15 0.100 2.06 2.02 1.97 1.92 1.89 1.87 1.85 1.83 1.82 
0.050 2,54 2.48 2.40 2.33 2.28 2.25 2.20 2.18 2.16 
0.010 3.80 3.67 3,32 3.37 3.28 3.21 3.13 3.08 3.05 
0.001 6.08 5.81 5.54 3:23 5.07 4.95 4.80 4.70 4.64 
16 0.100 2.03 1.99 1.94 1.89 1.86 1.84 1.81 1.79 1.78 
0.050 2.49 2.42 2.35 2.28 2.23 2.19 2.15 2.12 2.11 
0.010 3.69 3:39 3.41 3.26 3.16 3.10 3.02 2.97 2.93 
0.001 5.81 3:19 5.27 4.99 4.82 4.70 4,54 4,45 4,39 
17 0.100 2.00 1.96 1.91 1.86 1.83 1.81 1.78 1.76 1.75 
0.050 2,45 2.38 2.31 2,23 2.18 2.15 2.10 2.08 2.06 
0.010 3.59 3.46 3.31 3.16 3.07 3.00 2.92 2.87 2.83 
0.001 5.58 5.32 5.05 4.78 4.60 4,48 4,33 4.24 4.18 
18 0.100 1.98 1.93 1.89 1.84 1.80 1.78 1.75 1.74 1.72 
0.050 2.41 2.34 2.21 2.19 2.14 2.11 2.06 2.04 2.02 
0.010 3:91 337 3.23 3.08 2.98 2.92 2.84 2.78 2.13 
0.001 5.39 5.13 4.87 4,59 4.42 4.30 4.15 4.06 4.00 
19 0.100 1.96 1.91 1.86 1.81 1.78 1.76 1.73 1.71 1.70 
0.050 2.38 2.31 2.23 2.16 2.11 2.07 2.03 2.00 1.98 
0.010 3.43 3.30 3.15 3.00 2.91 2.84 2.76 2.71 2.67 
0.001 5.22 4.97 4.70 4.43 4.26 4.14 3.99 3.90 3.84 
20 0.100 1.94 1.89 1.84 1.79 1.76 1.74 1.71 1.69 1.68 
0.050 2.35 2.28 2.20 219. 2.07 2.04 1.99 1.97 1.95 
0.010 3.37 3.23 3.09 2.94 2.84 2.78 2.69 2.64 2.61 
0.001 5.08 4.82 4.56 4.29 4.12 4.00 3.86 3:11 3.70 
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780 


APÉNDICE A Tablas 


TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


Ya 


Y Q 1 2 3 4 5 6 7 8 9 
21 0.100 2.96 DIN 2.36 2:23 2.14 2.08 2.02 1.98 1.95 
0.050 4.32 3.47 3.07 2.84 2.68 2d 2.49 2.42 2.37 
0.010 8.02 5.78 4.87 4.37 4.04 3.81 3.64 3.51 3.40 
0.001 14.59 9.77 7.94 6.95 6.32 5.88 5.56 5.31 5.11 
22 0.100 2.95 2.56 2.35 2.22 2.13 2.06 2.01 1.97 1.93 
0.050 4.30 3.44 3.05 2.82 2.66 ZO) 2.46 2.40 2.34 
0.010 7.95 572 482 4.31 3.99 3.76 3.59 3.45 3.35 
0.001 14.38 9.61 7.80 6.81 6.19 5.76 5.44 19 4.99 
23 0.100 2.94 2:09 2.34 2.21 2.11 2.05 1.99 1.95 1.92 
0.050 4.28 3.42 3.03 2.80 2.64 2.53 2.44 2.37 2.32 
0.010 7.88 5.66 4.76 4.26 3.94 3.71 3.54 3.41 3.30 
0.001 1420 9.47 7.67 6.70 6.08 5.65 5.33 5.09 4,89 
24 0.100 2.93 2.54 2.33 2.19 2.10 2.04 1.98 1.94 1.91 
0.050 4.26 3.40 3.01 2.78 2.62 el 2.42 2.36 2.30 
0.010 7.82. 5.61 4.72 4.22 3.90 3.67 3.50 3.36 3.26 
0.001 14.03 9.34 7.55 6.59 5.98 5.55 523 499 4,80 
25 0.100 2.92 2.39 2:32 2.18 2.09 2.02 1.97 1.93 1.89 
0.050 4.24 3.39 2.99 2.76 2.60 2,49 2.40 2.34 2.28 
0.010 1.17 3.317 4.68 4.18 3.85 3.63 3.46 3.32 3.22 
0.001 13.88 9.22 TAS 6.49 5.89 5.46 3.15 4.91 4.71 
26 0.100 2.91 2:32 2.31 2.17 2.08 2.01 1.96 1.92 1.88 
0.050 4.23 3.37 2.98 2.74 2.19 2.47 2.39 2.32 2:27 
0.010 7.72 5.53 4.64 4.14 3.82 3.59 3.42 3.29 3.18 
0.001 13.74 9.12 7.36 6.41 5.80 5.38 5.07 4.83 4.64 
27 0.100 2.90 2.51 2.30 2.17 2.07 2.00 1.95 1.91 1.87 
0.050 4.21 3.35 2.96 2.73 2.57 2.46 2.31 2.31 2.23 
0.010 7.68 549 460 4.11 3.78 3.56 3.39 3.26 3.15 
0.001 13.61 902 7.27 6.33 5.73 5.31 5.00 4.76 4.57 
28 0.100 2.89 2.50 2.29 2.16 2.06 2.00 1.94 1.90 1.87 
0.050 4.20 3.34 2:09 2.71 2.56 2.45 2.36 2.29 2.24 
0.010 7.64 545 4.57 4.07 3.75 3.53 3.36 3.23 3.12 
0.001 13.50 8.93 7.19 6.25 5.66 5.24 4.93 4.69 4.50 
29 0.100 2.89 2.50 2.28 213 2.06 1.99 1:93 1.89 1.86 
0.050 4.18 3.33 2.93 2.70 2.09 2,43 239 2.28 2.22 
0.010 760 542 4.54 4.04 3.73 3.50 3.33 3.20 3.09 
0.001 13.39 8.85 7.12 6.19 5.59 5.18 4.87 4.64 4.45 
30 0.100 2.88 2.49 2.28 2.14 2.05 1.98 1.93 1.88 1.85 
0.050 4.17 3.32 2.92 2.69 2.53 2.42 2.39 2.27 2.21 
0.010 756 539 4,51 4.02 3.70 3.47 3.30 3.17 3.07 
0.001 13.29 8.77 7.05 6.12 5.53 5.12 4.82 4.58 4,39 
31 0.100 2.87 2.48 2.27 2.14 2.04 1.97 1.92 1.88 1.84 
0.050 4.16 3.30 2.91 2.68 2.52 2.41 2.32 2,25 2.20 
0.010 7.53 5.36 4.48 3.99 3.67 3.45 3.28 3.15 3.04 
0.001 1320 8.70 6.99 6.07 5.48 5.07 477 453 4.34 
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TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


Y4 
v a 10 12 15 20 25 30 40 50 60 


21 0.100 1.92 1.87 1.83 1.78 1.74 1.72 1.69 1.67 1.66 
0.050 2:32 2,23 2.18 2.10 2.05 2.01 1.96 1.94 1.92 
0.010 3.31 3.17 3.03 2.88 2.19 2.72 2.64 2.58 2.55 
0.001 4.95 4.70 4,44 4.17 4.00 3.88 3.74 3.64 3.58 


22 0.100 1.90 1.86 1.81 1.76 ¡ES 1.70 1.67 1.65 1.64 
0.050 2.30 2.23 25 2.07 2.02 1.98 1.94 1.91 1.89 
0.010 3.26 3.12 2.98 2.83 2:13 2.67 2.58 2.53 2.50 
0.001 4.83 4.58 4,33 4.06 3.89 3.78 3.63 3.54 3.48 


23 0.100 1.89 1.84 1.80 1.74 1.71 1.69 1.66 1.64 1.62 
0.050 22d 2.20 2:13 2.05 2.00 1.96 1.91 1.88 1.86 
0.010 3.21 3.07 2.93 2.78 2.69 2.62 2,54 2.48 2.45 
0.001 4.73 4.48 4.23 3.96 3:19 3.68 309 3.44 3.38 


24 0.100 1.88 1.83 1.78 1.73 1.70 1.67 1.64 1.62 1.61 
0.050 2.25 2.18 2.11 2.03 1.97 1.94 1.89 1.86 1.84 
0.010 3.17 3.03 2.89 2.74 2.64 2.58 2.49 2.44 2.40 
0.001 4.64 4.39 4.14 3.87 3.71 3,39 3.45 3.36 3.29 


25 0.100 1.87 1.82 1.77 1.72 1.68 1.66 1.63 1.61 1.59 
0.050 2.24 2.16 2.09 2.01 1.96 1.92 1.87 1.84 1.82 
0.010 3.13 2.99 2.85 2.70 2.60 2.54 2,45 2.40 2.36 
0.001 4.56 4.31 4.06 3.79 3.63 3:52 3.37 3.28 3.22 


26 0.100 1.86 1.81 1.76 1.71 1.67 1.65 1.61 1.59 1.58 
0.050 2.22 2.15 2.07 1.99 1.94 1.90 1.85 1.82 1.80 
0.010 3.09 2.96 2.81 2.66 2.37 2.50 2.42 2.36 2.33 
0.001 4.48 4,24 3.99 3.72 3.56 3.44 3.30 3.21 3.15 


27 0.100 1.85 1.80 1.75 1.70 1.66 1.64 1.60 1.58 1.57 
0.050 2.20 2.13 2.06 1.97 1.92 1.88 1.84 1.81 1.79 
0.010 3.06 2.93 2.78 2.63 2,54 2.47 2.38 2.33 2.29 
0.001 4.41 4.17 3.92 3.66 3.49 3.38 3.23 3.14 3.08 


28 0.100 1.84 1.79 1.74 1.69 1.65 1.63 1.59 1.57 1.56 
0.050 2.19 2.12 2.04 1.96 1.91 1.87 1.82 1.79 1.77 
0.010 3.03 2.90 2.15 2.60 2.51 2.44 2.35 2.30 2.26 
0.001 4.35 4.11 3.86 3.60 3.43 3.32 3.18 3.09 3.02 


29 0.100 1.83 1.78 1.73 1.68 1.64 1.62 1.58 1.56 1.55 
0.050 2.18 2.10 2.03 1.94 1.89 1.85 1.81 177 1.75 
0.010 3.00 2.87 2.13 2.57 2.48 2.41 2.33 2.27 2.23 
0.001 4.29 4.05 3.80 3.54 3.38 3.27 3.12 3.03 2.97 


30 0.100 1.82 1.77 1.72 1.67 1.63 1.61 ES 1.55 1.54 
0.050 2.16 2.09 2.01 1.93 1.88 1.84 079 1.76 1.74 
0.010 2.98 2.84 2.70 2.39 2,45 2.39 2.30 2.23 2.21 
0.001 4.24 4.00 IA 3.49 3.33 3.22 3.07 2.98 2.92 
31 0.100 1.81 ¡Bs 1.71 1.66 1.62 1.60 1.56 1.54 1.53 
0.050 2.15 2.08 2.00 1.92 1.87 1.83 1.78 1.75 1.73 
0.010 2.96 2.82 2.68 2.52 2,43 2.36 2.27 2.22 2.18 
0.001 4.19 3.9) 3.71 3.45 3.28 3.17 3.03 2.94 2.87 
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APÉNDICE A Tablas 


TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


va 

Y a 1 2 3 4 5 6 y) 8 9 
32 0.100 2.87 2.48 2.26 2.13 2.04 1.97 1.91 1.87 1.83 
0.050 4.15 3.29 2.90 2.67 231 2.40 2.31 2.24 2.19 
0.010 7.50 5.34 4.46 3.97 3.65 3,43 3.26 3.13 3.02 
0.001 13.12 8.64 6.94 6.01 5.43 5.02 4.72 4.48 4.30 
33 0.100 2.86 2.47 2.26 2.12 2.03 1.96 1.91 1.86 1.83 
0.050 4.14 3.28 2.89 2.66 2.50 2.39 2.30 2.23 2.18 
0.010 7.47 3,31 4.44 3.95 3.63 3.41 3.24 3.11 3.00 
0.001 13.04 8.58 6.88 5.97 5.38 4.98 4.67 4.44 4.26 
34 0.100 2.86 2.47 2.25 2.12 2.02 1.96 1.90 1.86 1.82 
0.050 4.13 3.28 2.88 2.65 2.49 2.38 2.29 2.23 2.17 
0.010 7.44 5.29 4.42 3.93 3.61 3.39 3.22 3.09 2.98 
0.001 12.97 8.52 6.83 5.92 5.34 4.93 4.63 4.40 4.22 
35 0.100 2.85 2.46 2.25 2.11 2.02 1.95 1.90 1.85 1.82 
0.050 4.12 3.27 2.87 2.64 2.49 2:37 2.29 2.22 2.16 
0.010 7.42 3.27 4.40 3.91 3.59 3:37 3.20 3.07 2.96 
0.001 12.90 8.47 6.79 5.88 5.30 4.89 4.59 4.36 4.18 
36 0.100 2.85 2.46 2.24 2,11 2.01 1.94 1.89 1.85 1.81 
0.050 4.11 3.26 2.87 2.63 2.48 2.36 2.28 2.21 2.15 
0.010 7.40 5.25 4.38 3.89 3.57 3.35 3.18 3.05 2.95 
0.001 12.83 8.42 6.74 5.84 5.26 4.86 4.56 4.33 4.14 
37 0.100 2.85 2.45 2.24 2.10 2.01 1.94 1.89 1.84 1.81 
0.050 4.11 3.25 2.86 2.63 2.47 2.36 2.27 2.20 2.14 
0.010 37 5.23 4.36 3.87 3.56 3:33 3:17 3.04 2.93 
0.001 12.77 8.37 6.70 5.80 5.22 4.82 4.53 4.30 4.11 
38 0.100 2.84 2.45 2.23 2.10 2.01 1.94 1.88 1.84 1.80 
0.050 4.10 3.24 2.85 2.62 2.46 2:39 2.26 2.19 2.14 
0.010 7.35 21 4.34 3.86 3.54 3,32 3,15 3.02 2.92 
0.001 12.71 8.33 6.66 5.76 5.19 4.79 4.49 4.26 4.08 
39 0.100 2.84 2.44 2.23 2.09 2.00 1.93 1.88 1.83 1.80 
0.050 4.09 3.24 2.85 2.61 2.46 2.34 2.26 2.19 2.13 
0.010 7.33 5.19 4.33 3.84 3.53 3.30 3.14 3.01 2.90 
0.001 12.66 8.29 6.63 5.73 5.16 4.76 4.46 4.23 4.05 
40 0.100 2.84 2.44 2.23 2.09 2.00 1.93 1.87 1.83 1.79 
0.050 4.08 3.23 2.84 2.61 2.45 2.34 2:23 2.18 2.12 
0.010 7.31 5.18 4.31 3.83 3.51 3.29 3,12 2.99 2.89 
0.001 12.61 8.25 6.59 5.70 5.13 4.73 4.44 4.21 4.02 
50 0.100 2.81 2.41 2.20 2.06 1.97 1.90 1.84 1.80 1.76 
0.050 4.03 3.18 2.79 2.56 2.40 2.29 2.20 2.13 2.07 
0.010 TAT 5.06 4.20 3.72 3.41 3.19 3.02 2.89 2.78 
0.001 12.22 7.96 6.34 5.46 4.90 4.51 4.22 4.00 3.82 
60 0.100 2.79 2.39 2.18 2.04 1.95 1.87 1.82 1.77 1.74 
0.050 4.00 3.15 2.76 2.53 2.37 2.25 2.17 2.10 2.04 
0.010 7.08 4.98 4.13 3.65 3.34 3,12 2.95 2.82 2.72 
0.001 11.97 177 6.17 5.31 4.76 4.37 4.09 3.86 3.69 
120 0.100 2.73 2,39 2.13 1.99 1.90 1.82 1.77 1:72 1.68 
0.050 3.92 3.07 2.68 2.45 2.29 2.18 2.09 2.02 1.96 
0.010 6.85 4.79 3.95 3.48 317 2.96 2.79 2.66 2.56 
0.001 11.38 7.32 5.78 4.95 4.42 4.04 3.17 IDA 3.38 
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TABLA A.7 Puntos porcentuales superiores para la distribución F (continuación) 


Y 
Y Q 10 12 15 20 25 30 40 50 60 
32 0.100 1.81 1.76 1:71 .65 1.62 .59 1.56 1.53 1.32 
0.050 2.14 2.07 1.99 .91 1.85 .82 1.77 1.74 1:71 
0.010 2.93 2.80 2.65 2.50 2.41 2.34 2.23 2.20 2.16 
0.001 4.14 3.91 3.66 3.40 3.24 3.13 2.98 2.89 2.83 
33 0.100 1.80 1.75 1.70 .64 1.61 .58 1:53 1.53 1.51 
0.050 2.13 2.06 1.98 .90 1.84 81 1.76 1.72 1.70 
0.010 2.91 2.78 2.63 2.48 2.39 2:32 2.23 2.18 2.14 
0.001 4.10 3.87 3.62 3.36 3.20 3.09 2.94 2.85 2.79 
34 0.100 1.79 1,73 1.69 .64 1.60 .58 1.54 1:32 1.50 
0.050 2,12 2.05 1.97 .89 1.83 .80 1.75 1.7 1.69 
0.010 2.89 2.76 2.61 2.46 2.37 2.30 2:21 2.16 2:12 
0.001 4.06 3.83 3.58 3.33 3.16 3.05 2.91 2.82 2.75 
35 0.100 1.79 1.74 1.69 .63 1.60 .57 1-33 1:5 1.50 
0.050 2.11 2.04 1.96 .88 1.82 .19 1.74 1.70 1.68 
0.010 2.88 2.74 2.60 2.44 2.35 2.28 2.19 2.14 2.10 
0.001 4.03 3.79 3:39 3.29 3.13 3.02 2.87 2.78 2.72 
36 0.100 1.78 1.73 1.68 .63 1.59 56 1,33 13: 1.49 
0.050 2.11 2.03 1.95 .87 1.81 .78 173 1.69 1.67 
0.010 2.86 2.72 2.58 2.43 2.33 2.26 2.18 2.12 2.08 
0.001 3.99 3.76 3.51 3.26 3.10 2.98 2.84 2.75 2.69 
37 0.100 1.78 1.73 1.68 .62 1.58 .S6 1.52 1.50 1.48 
0.050 2.10 2.02 1.95 .86 1.81 17 172 1.68 1.66 
0.010 2.84 2.71 2.56 2.41 2.31 2.25 2.16 2.10 2.06 
0.001 3.96 3.73 3.48 3.23 3.07 2.95 2.81 2:72 2.66 
38 0.100 1.77 1.72 1.67 .61 1.58 19 1.52 1.49 1.48 
0.050 2.09 2.02 1.94 1.85 1.80 1.76 1.71 1.68 1.65 
0.010 2.83 2.69 2.55 2.40 2.30 2.23 2.14 2.09 2.05 
0.001 3.93 3.70 3.45 3.20 3.04 2.92 2.78 2.69 2.63 
39 0.100 1.77 1.72 1.67 .61 1.57 DS 1:51 1.49 1.47 
0.050 2.08 2.01 1.93 .85 1.79 15 1.70 1.67 1.65 
0.010 2.81 2.68 2.54 2.38 2.29 2.22 2.13 2.07 2.03 
0.001 3.90 3.67 3.43 3.17 3.01 2.90 2.19 2.66 2.60 
40 0.100 1.76 1.71 1.66 .61 1.57 .S4 1.51 1.48 1.47 
0.050 2.08 2.00 1.92 .84 1.78 .14 1.69 1.66 1.64 
0.010 2.80 2.66 2.52 2.37 2.27 2.20 2.11 2.06 2.02 
0.001 3.87 3.64 3.40 3.14 2.98 2.87 2.73 2.64 2.57 
50 0.100 1:73 .68 1.63 .57 1:33 .S0 1.46 1.44 1.42 
0.050 2.03 .95 1.87 .78 1.73 .69 1.63 1.60 1.58 
0.010 2.70 2.56 2.42 2.27 2.17 2.10 2.01 1.95 1.91 
0.001 3.67 3.44 3.20 2.95 2.79 2.68 2:03 2.44 2.38 
60 0.100 1.71 .66 1.60 .54 1.50 .48 1.44 1.41 1.40 
0.050 1.99 .92 1.84 13 1.69 .65 1.59 1.56 1:33 
0.010 2.63 2.50 2.35 2.20 2.10 2.03 1.94 1.88 1.84 
0.001 3.54 3.32 3.08 2.83 2.67 2:19 2.41 2.32 2.25 
120 0.100 1.65 .60 1.55 .48 1.44 41 1.37 1.34 1.32 
0.050 1.91 .83 173 .66 1.60 ¿13 1.50 1.46 1.43 
0.010 2.47 2.34 2.19 2.03 1.93 .86 1.76 1.70 1.66 
0.001 3.24 3.02 2.78 2.33 2.31 2.26 224 Al 2.02 1.95 
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TABLA A.8 Puntos porcentuales superiores para la distribución de rango studentizado Qu, 


0 Uy, 19,0 
Ya 
”» a 2 3 4 5 6 7 8 9 10 11 12 13 14 15 
1 0.10| 8.93 13.44 16.36 18.49 20.15 21.51 22.64 23.62 24.48 25.24 25.92 26.54 27.10 27.62 
0.05 |17.97 26.98 32.82 37.08 40.41 43.12 45.40 47.36 49.07 50.59 51.96 53.20 54.33 55.36 
0.01 ¡90.02 135.0 164.3 185.6 202.2 215.8 227.2 237.0 245.6 253.2 260.0 266.2 271.8 277.0 
2 0.10| 4.13 5.73 6.77 754 8.14 8.63 905 941 9.72 10.01 10.26 10.49 10.70 10.89 
0.05| 6.08 8.33 9.80 10.88 11.74 12.44 13.03 13.54 13.99 14.39 14.75 15.08 15.38 15.65 
0.01 |14.04 19.02 22.29 24.72 26.63 28.20 29.53 30.68 31.69 32.59 33.40 34.13 34.81 35.43 
3 0.10| 3.33 447 5.20 5.74 6.16 6.51 6.81 7.06 7.29 7.49 7.67 7.83 7.98 8.12 
0.05| 4.50 5.91 6.82 7.50 8.04 8.48 8.85 9.18 946 9.72 9.95 10.15 10.35 10.52 
0.01 | 8.26 10.62 12.17 13.33 14.24 15.00 15.64 16.20 16.69 17.13 17.53 17.89 18.22 18.52 
4 0.10| 3.01 3.98 459 5.04 5.39 5.68 5.93 6.14 6.33 6.49 6.65 6.78 6.91 7.02 
0.05| 3.93 5.04 5.76 6.29 6.71 7.05 7.35 7.60 7.83 8.03 8.21 8.37 8.52 8.66 
0.01 | 6.51 8.12 9.17 9.96 10.58 11.10 11.55 11.93 12.27 12.57 12.84 13.09 13.32 13.53 
5 0.10| 285 3.72 426 4.66 4.98 5.24 5.46 5.65 5.82 5.97 6.10 6.22 6.34 6.44 
0.05| 3.64 4.60 5.22 5.67 6.03 6.33 6.58 6.80 6.99 7.17 7.32 7.47 7.60 7.72 
0.01 | 5.70 6.98 7.80 8.42 8.91 9.32 9.67 9.97 10.24 10.48 10.70 10.89 11.08 11.24 
6 0.10| 2.75 3.56 4.007 4.44 4.73 4.97 5.17 5.34 5.50 5.64 5.76 5.87 5.98 6.07 
0.05| 346 434 4.90 5.31 5.663 5.90 6.12 6.32 6.49 6.65 6.79 6.92 7.03 7.14 
0.01 | 5.24 6.33 7.03 7.56 7.97 8.32 8.61 8.87 910 930 949 9.65 9.81 9.95 
7 0.10| 2.68 3.45 3.93 4.28 4.55 4.78 4.97 5.14 5.28 5.41 5.53 5.64 5.74 5.83 
0.05| 3.34 4.16 4.68 5.06 5.36 5.61 5.82 6.00 6.16 6.30 6.43 6.55 6.66 6.76 
0.01| 495 5.92 6.54 7.01 7.37 7.68 7.94 8.17 8.37 8.55 8.71 8.86 9.00 9.12 
8 0.10| 2.63 3.37 3.83 4.17 443 4.65 4.83 499 5.13 5.25 5.336 5.46 5.56 5.64 
0.05| 3.26 4.04 4.53 4.89 5.17 5.40 5.60 5.77 5.92 6.05 6.18 6.29 6.39 6.48 
0.01| 475 5.64 6.20 6.63 6.96 7.24 7.47 7.68 7.86 8.03 8.18 8.31 8.44 8.55 
9 0.10| 259 3.32 3.76 4.008 434 4.54 4.72 4.87 5.01 5.13 5.23 5.33 5.42 5.51 
0.05| 3.20 3.95 442 476 5.02 5.24 5.43 5,59 5.74 5.87 5.98 6.09 6.19 6.28 
0.01 | 4.60 5.43 5.96 6.35 6.66 6.91 7.13 7.33 7.49 7.65 7.78 7.91 8.03 8.13 
10 0.10| 256 3.27 3.70 4.02 426 447 4.64 4.78 4.91 5.003 5.13 5.23 5.32 5.40 
0.05| 3.15 3.88 4.33 4.65 4.91 5.12 5.31 5.46 5.60 5.72 5.83 5.93 6.03 6.11 
0.01 | 448 5.27 5.77 6.14 6.43 6.67 6.88 7.05 7.21 7.36 7.49 7.60 7.71 7.81 
11 0.10| 254 3.23 3.66 3.96 420 440 4.57 4.71 484 495 5.05 5.15 5.23 5.31 
0.05| 3.11 3.82 426 4.57 4.82 5.03 5.20 5.35 5.49 5.61 5.71 5.81 5.90 5.99 
0.01| 439 5.15 5.62 5.97 6.25 6.48 6.67 6.84 6.99 7.13 7.25 7.36 7.46 7.56 
12 0.10| 252 3.20 3.62 3.92 4.16 4.35 4.51 4.65 4.78 4.89 4.99 5.08 5.16 5.24 
0.05| 3.08 3.77 420 4.51 4.75 4.95 5.12 5.27 5.40 5.51 5.62 5.71 5.80 5.88 
0.01| 432 5.005 5.550 5.84 6.10 6.32 6.51 6.67 6.81 6.94 7.06 7.17 7.26 7.36 
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TABLA A.8 Puntos porcentuales superiores para la distribución de rango studentizado q,, ,, (continuación) 


Ya 


v o 2 3 2 5 6 7 8 9 10 11 12 13 14 15 
13 0.10 2.50 3.18 3.59 3.88 4.12 430 446 4.60 4.72 4.83 4.93 5.02 5.10 5.18 
0.05 3.06 3.73 4.15 445 4.69 4.88 5.05 5.19 5.332 5.43 5,53 5.63 5.71 5.79 
0.01 4.26 4.96 5.40 5.73 5.98 6.19 6.37 6.53 6.67 6.79 6.90 7.01 7.10 7.19 
14 0.10 2.49 3.16 3.56 3.85 4.08 4.27 442 4.56 4.68 4.79 4.88 4.97 5.05 5.12 
0.05 3.03 3.70 4.11 441 4.64 4.83 4.99 5.13 5.25 5.36 5.46 5.55 5.64 5.72 
0.01 4.21 4.89 5.32 5.63 5.88 6.08 6.26 6.41 6.54 6.66 6.77 6.87 6.96 7.05 
15 0.10 2.48 3.14 3.54 3.83 405 4.23 439 4.52 4.64 4,75 4.84 4.93 5.01 5.08 
0.05 3.01. 3.67 4.08 4.37 4.60 4.78 4.94 5.08 5.20 5.31 5.40 5.49 5.558 5.65 
0.01 4.17 4.84 5.25 5.56 5.80 5.99 6.16 6.31 6.44 6.55 6.66 6.76 6.84 6.93 
16 0.10 2,47 3.12 3.52 380 403 4.21 436 449 4.61 4.71 481 489 4.97 5.04 
0.05 3.00 3.65 4.05 4.33 4.56 4.74 4.90 5.03 5.15 5.26 5.35 5.44 5.52 5.59 
0.01 4,13 4.79 5.19 5.49 5.72 5.92 6.08 6.22 6.35 6.46 6.56 6.66 6.74 6.82 
17 0.10 2.46 3.11 3.50 3.78 4.00 4.18 4.333 446 4.58 4.68 4.77 4.86 4.93 5.01 
0.05 2.98 3.63 4.02 430 452 4.71 4.86 4.99 5.11 5.21 5.31 5.339 5.47 5.55 
0.01 4.10 4.74 5.14 5.43 5.66 5.85 6.01 6.15 6.27 6.38 6.48 6.57 6.66 6.73 
18 0.10 2.45 3.10 3.49 3.77 3.98 4.16 4.31 444 4.55 4.65 4.75 4.83 4.90 4.98 
0.05 2.97 3.61 4.00 428 4.49 4.67 4.82 4.96 5.07 5.17 5.27 5.35 5.43 5.50 
0.01 4.07 4.70 5.09 5.38 5.60 5.79 5.94 6.08 6.20 6.31 6.41 6.50 6.58 6.65 
19 0.10 2,44 3.09 3.47 3.75 3.97 414 429 442 453 4.63 4.72 480 4.88 4.95 
0.05 2.96 3.59 3.98 4.25 447 4.65 4.79 4.92 5.04 5.14 5.23 5,32 5.39 5.46 
0.01 4.05 4.67 5.05 5.33 5.55 5.73 3.89 6.02 6.14 6.25 6.34 6.43 6.51 6.58 
20 0.10 2.44 3.08 3.46 3.74 3.95 4.12 4.27 440 4.51 4.61 4.70 4.78 4.85 4.92 
0.05 2.95 3.58 3.96 423 445 4.62 4.77 4.90 5.01 5.11 5.20 5.28 5.36 5.43 
0.01 4.02 4.64 5.02 5.29 5.551 5.69 5.84 5.97 6.09 6.19 6.29 6.37 6.45 6.52 
24 0.10 2,42 3.05 3.42 3.69 3.90 4.07 4.21 434 445 454 4.63 4.71 4.78 4.85 
0.05 2.92 3.53 3.90 4.17 4.37 454 4.68 4.81 4.92 5.01 5.10 5.18 5.25 5,32 
0.01 3.96 455 4.91 5.17 5.37 5.54 5.69 5.81 5.92 6.02 6.11 6.19 6.26 6.33 
30 0.10 2.40 3.02 3.39 3.65 3.85 4.02 4.16 428 4.38 4.47 4.56 4.64 4.71 4.77 
0.05 2.89 349 3.85 4.10 430 446 4.60 4.72 482 4.92 5.00 5.08 5.15 5.21 
0.01 3.89 445 4.80 5.05 5.24 5.40 5.554 5.65 5.76 5.85 5.93 6.01 6.08 6.14 
40 0.10 2.38 2.99 3.35 3.60 3.80 396 4.10 421 432 441 449 456 4.63 4.69 
0.05 2.86 3.44 3.79 404 423 439 452 4.63 474 482 490 498 5.05 5.11 
0.01 3.82 4.37 4.70 4.93 5.11 5.27 5.39 5.50 5.60 5.69 5.76 5.83 5.90 5.96 
60 0.10 2.36 2.96 3.31 3.56 3.75 3.91 4.04 416 425 434 442 449 4.56 4,62 
0.05 2.83 340 3.74 3.98 4.16 4.31 444 455 4.65 4.73 481 4.88 4.94 5.00 
0.01 3.716 428 4.59 4.82 4.99 5.13 5.25 5.36 545 5,53 5.60 5.67 5.73 5.79 
120 0.10 2,34 2.93 3.28 3.552 3.71 3.86 3.99 4.10 4.19 428 435 442 448 4,54 
0.05 2.80 3.36 3.68 3.92 4.10 424 436 447 456 4.64 4/71 4.78 4.84 4.90 
0.01 3.70 420 4.50 4.71 4.87 5.01 5.12 5.21 5.30 5.38 5.44 5.50 5.56 5.61 
co 0.10 2.33 2.90 3.24 348 3.66 3.81 3.93 404 413 4.21 428 435 4.41 447 
0.05 2.717 3.31 3.63 3.86 4.03 4.17 4.29 4.39 4.47 4.55 4.62 4.68 4.74 4.80 
0.01 3.64 412 440 4.60 4.76 4.88 4.99 5.08 5.16 5.23 5.29 5.335 5.40 5,45 
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TABLA A.9 Constantes de diagramas de control 


n A, A, B, Ba D, D, Ca d, 
2 1.880. 2659 0.000 3.267 0000 3.267 0.7979 1.128 
3 1.023 1954 0.000 2.568 0.000 2575 0.8862 1.693 
4 | 0729 1628 0.000 2266 0.000 2.282 09213 2.059 
5 0.577 1427 0.000 2.089 0.000 2.114 0.9400 2.326 
6 0.483 1287 0.030 1970 0.000 2004 09515 2.534 
7 0.419 1.182 0.118 1882 0076 1924 0.9594 2,704 
8 0.373 1099 0.185 1815 0.136 1864 0.9650 2.847 
9 0.337 1032 0.239 1761 0.184 1816 0.9693 2.970 

10 | 0308 0.975 0.284 1716 0.223 1777 0.9727 3.078 

11 0.285 0.927 0.321 1.679 0256 1744 09754 3.173 

12 | 0266 0866 0.354 1646 0.283 1717 09776 3.258 

13 0.249 0.850 0.382 1618 0.307 1693 0.9794 3.336 

14 | 0235 0817 0406 159% 0.328 1672 0.9810 3.407 

15 | 0223 0.789 0428 1572 0.347 1653 0.9823 3.472 

16 | 0212 0.763 0448 1552 0.363 1637 0.9835 3.532 

17 | 0203 0.739 0466 1534 0.378 1622 0.9845 3.588 

18 | 0.194 0.718 0482 1518 0.391 1609 0.9854 3.640 

19 | 0.187 0.698 0.497 1503 0.403 1597 0.9862 3.689 

20 | 0.180 0.680 0.510 149 0415 1585 0.9869 3.735 

21 0.173 0.663 0.523 1477 0425 1575 09876 3.778 

22 | 0.167 0.647 0.534 1466 0434 1566 0.9882 3.819 

23 | 0.162 0.633 0.545 1455 0443 1557 0.9887 3.858 

24 | 0.157 0619 0.555 1445 0452 1548 0.9892 3.895 

25 | 0.153 0.606 0.565 1435 0459 1541 0.9896 3.931 


Para n > 25: Az = 3//n, B3 = 1—3/V2n, y Ba 1+3/V2n. 


Apéndice 


Derivadas parciales 


Este apéndice presenta los mecanismos para calcular las derivadas parciales que se necesitan 
en la sección 3.4. Se inicia recordando que una derivada especifica la razón de cambio de una 
variable con respecto a la otra. Por ejemplo, el volumen vu de una esfera cuyo radio r está da- 
do por v = 4rtr”. Si a r se le permite aumentar (o disminuir) la razón con la cual v aumenta 
(o disminuye) está dada por la derivada de v con respecto a r: du/dr = 12117. 

Las derivadas parciales se necesitan cuando la cantidad cuya razón de cambio se está 
calculando es una función de más de una variable. Aquí se presenta un ejemplo. El volumen 
v de un cilindro cuyo radio r y altura h está dado por v = Tr”h. Si alguna de las dos, r o h 
cambian, v también lo hará. Ahora imagine que h es una constante y que a r se le permite au- 
mentar. La razón de aumento en u está dada por la derivada parcial de v con respecto a r. 
Esta derivada se denota por du/dr, y se calcula exactamente como la derivada ordinaria de v 
con respecto a r, tratando a h como una constante: du/dr = 2Tt rh. 

Ahora suponga que r es una constante, y que h está aumentando. La razón de aumento 
en v es la derivada parcial de v con respecto a h, que se denota por du/dh. Ésta se calcula 
exactamente como la derivada ordinaria de u con respecto a h, tratando a r como una cons- 
tante: du/dh = Tr. 


Si v es una función de varias variables, v = fÁ(x¡, X», . . . , X,), entonces la derivada 
parcial de v con respecto a una de las variables x;, x», .. ., x, se calcula de la misma 
forma que la derivada ordinaria, manteniendo a las otras variables constantes. 


Los ejemplos B.1 y B.2 muestran que el cálculo de derivadas parciales no es más difí- 
cil que el cálculo de derivadas ordinarias. 


Sea uv = 12x%y + 3xy”. Determine las derivadas parciales de v con respecto a x y y. 


Solución 
Para calcular dv/dx, manteniendo a y constante, y calculando la derivada con respecto a x. El 
resultado es 
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9 
e 24x y + 3y? 
Ox 


Para calcular dv/dy, manteniendo a x constante, y calculando la derivada con respecto a y. El 
resultado es 


dv 
— = 12x? + 6xy 
dy 
2y+ yz xz ) q 
Sea yv = 5% Determine las derivadas parciales de v con respecto a x, y, y Z. 
ER 
Solución 


Para calcular dv/dx, manteniendo tanto a y como a z constantes, y calculando la derivada con 
respecto a x, utilizando la regla del cociente: 

de. Bra y eya 0) 

ax (124 y2 + 22) 


De manera semejante se calculan las derivadas parciales de v con respecto a y y az: 


do (2443004 y+22) (dy + 1% -x2)0y) 
dy => (124 y24 22) 


du. 00-32) +y42) (dy + 192x120) 


O (12 + y2 + 22) 


Ejercicios para el apéndice B 


En los siguientes ejercicios, calcule todas las derivadas parciales. 


1. 


2. w= 


3. 


v=3x+2xy* 


Z = Cos x sen y? 


v=e 


+ y 
x?+ y? 


xy 


6. w= yx?+ 4y? +32? 
7. z =1In(x? + y?) 
8. v=e" cos(xz) + In(x?y +2) 


2xy* — 3xy? 
v= == 


Wa) 


. v=e*(cos y + senz) 10. z = y/sen(x?y) 
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Respuestas a los 
ejercicios impares 


Sección 1.1 


1. 


a) La población consta de todos los tornillos de la remesa. Es tangible. 

b) La población consta de todas las mediciones que se hicieron en el resistor con el óhmetro. Es conceptual. 
c) La población consta de todos los habitantes del pueblo. Es tangible. 

d) La población consta de todas las soldaduras que pudieron haberse hecho con el proceso. Es conceptual. 


e) La población consta de todas las partes fabricadas ese día. Es tangible. 
a) Falso b) Verdadero 


a) No. Lo importante es la proporción poblacional de defectos: el porcentaje de la muestra es sólo una aproximación. 
La proporción poblacional para el nuevo proceso puede, en efecto, ser mayor o menor que la del proceso anterior. 


b) No. La proporción poblacional para el nuevo proceso puede ser 10% o mayor, aun cuando la proporción muestral 
fue de sólo 9%. 


c) Encontrando dos botellas defectuosas en la muestra. 


Un buen conocimiento del proceso que produce los datos. 


Sección 1.2 


792 


Falso. 

No. En las muestras 1, 2, 4, la media es 7/3, que no aparece en toda la muestra. 
El tamaño de la muestra puede ser cualquier número impar. 

La media y la desviación estándar aumentan 5%. 


La media es 2.45, la mediana es 3 y la desviación estándar es 1.2999. 


11. a) Sí, la media es 2.45. 


b) Sí, la mediana es 3. 
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c) No, la desviación estándar de la muestra depende del tamaño de la muestra. 


13. a) Todo se multiplicaría por 2.54. 


b) No exactamente lo mismo, puesto que las mediciones serían un poco diferentes la segunda vez. 


15. No existe un cuarto cuartil. Hay tres cuartiles; son los puntos que dividen los datos en cuatro grupos iguales. 


Sección 1.3 


1,40 Tallos | Hojas 
11 16 
12 | 678 
13 | 13678 
14 | 13368 
15 | 126678899 
16 | 122345556 
17 | 013344467 
18 | 1333558 
19 |2 
20 (3 


b) Aquí se muestra un histograma. Son posibles otras elecciones 
para los puntos finales. 


c) 


10 12 


. Q . 
. e... e. .. 
mw 0..m0.000 sara ee se... . . 


14 16 18 20 22 24 
Peso (Oz) 


0.2 7 


0.15 FP 


0.1 Pp 


Densidad 


0.05 + 


793 


11 13 14 15 16 17 18 19 
Peso (0z) 


21 
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22 


18F 


16 


14 - 
181 ] 


10 


El diagrama de puntos no muestra datos atípicos. 


Peso (0z) 


ss Tallo | Hoja 

1 | 1588 
2 | 00003468 
3 | 0234588 
4 | 0346 
5 | 2235666689 
6 | 00233459 
7 | 113558 
8 | 568 
9 | 1225 

10 | 1 

11 

12.12 

13 | 06 

14 

15 

16 

17 | 1 

18 

19 [9 

20 

21 

22 

23|3 


Hay 23 tallos en esta gráfica; una de sus ventajas sobre la de la figura 1.6 consiste en que los valores están dados con 
dígitos en los décimos en lugar de un dígito. Una desventaja es que hay muchos tallos, y muchos de éstos están vacíos. 


5. a) Aquí se muestran los histogramas en cada grupo. 


11. 
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Otras elecciones para los puntos extremos son posibles. 


0.25 mdd 
0.2 03+ 
ho] hs] 
S 
3 01 E 
0.05 mor 
Ll, ll E MN 
18 19 20 21 22 23 24 25 26 15 16 17 18 19 20 21 22 23 24 25 
Grupo 1 de mediciones (cm) Grupo 2 de mediciones (cm) 
le) 30 
25 S 
E 
2 Xx 
É 201 
hs — 
3 
o 
2 15P x 
10 
Grupo 1 Grupo 2 


c) Las mediciones en el grupo 1 son por lo general mayores que en el grupo 2. Las mediciones en el grupo 1 no están 
lejos de ser simétricas, aunque el diagrama de caja sugiere un ligero sesgo a la izquierda, puesto que la mediana es- 
tá más cerca del tercer cuartil que del primero. No hay datos atípicos. La mayoría de las mediciones del grupo 2 es- 
tán muy concentradas en el rango angosto y sesgadas a la izquierda dentro del rango. Las cuatro mediciones restantes 


son datos atípicos. 


a) Cercano al 25% b) 130-135 mm 


ii) 


a) A: 4.60, B: 3.86 b) Sí 


12 


10 


c) 12% 


Z] c) No. El valor mínimo de 
-2.235 es un “dato atípico” 


ya que está a más de 1.5 ve- 
ces del rango intercuartil 
debajo del primer cuartil. 
El bigote inferior se extien- 
de al dato menor que no es 


un dato atípico, pero el va- 
lor del punto no está dado. 


796 


13. a) 500 
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Tensión de fractura (MPa) 


15. a) 60 


b) oo—e..oOoo— | 


In y 


5 10 


15 


b) El diagrama de caja indica que el valor 470 es un dato 
atípico. 


c) 


0 100 200 300 400 500 
Tensión de fractura (MPa) 


d) El diagrama de caja indica que el valor 384 está aleja- 
do del volumen de los datos y se pudiera considerar un 
dato atípico. 


La relación es no lineal. 


La relación es aproximadamente lineal. 


c) Sería más fácil trabajar con x y ln y, porque la relación es aproximadamente lineal. 
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Ejercicios adicionales para el capítulo 1 


1. a) La media se dividirá entre 2.2. 


b) La desviación estándar estará dividida entre 2.2. 
3. a) Falso b) Verdadero Cc) Falso d) Verdadero 


5. a) No es posible decir cuánto cambia la media. 


b) Si hay más de dos números aleatorios en la lista, la mediana no cambia. Si hay sólo dos números en la lista, la me- 
diana cambia, pero no se puede decir cuánto. 


c) No es posible decir cuánto cambia la desviación estándar. 
7. a) La media disminuye por 0.774. b) La media cambia a 24.226. 


c) La mediana no cambia. 


d) No es posible decir cuánto cambia la desviación estándar. 
9. El enunciado ¿) es verdadero. 
11. a) Incorrecto b) Correcto c) Incorrecto d) Correcto 


13. a) Sesgado a la izquierda. El 850. percentil esta mucho más cercano a la mediana (500. percentil) que el 150. percen- 
til. Por tanto, el histograma parece tener una cola izquierda más larga que la cola derecha. 


b) Sesgado a la derecha. El 150. percentil está mucho más cercano a la mediana (500. percentil) que el 850. percentil. 
Por tanto, el histograma parece tener una cola derecha más larga que la cola izquierda. 


15. a) 
0.25 Pp 


o 
0) 
T 


Densidad 
| 
197 

T 


2 
a 
T 


0 ] 11] | ] ] 
6 9 12131415161718 20 23 


Log, de la población 


b) 0.14 


Cc) Aproximadamente simétrico 
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dd oasl 
0.2 
3 015t 
R 
5 
A 01b 
0.05 
0 1 ] ] ] 


0 2 4 6 8 
Población (en millones) 


Los datos usando la escala real están muy sesgados a la derecha, por lo que es imposible apreciar las características 
del histograma. 


17. a) 0.25 
0.2 
 0.15p 
No] 
8 
a 0.1t 
0.05 FP 
y 024 10 15 20 25 30 50 


Número de propietarios 


b) 3.35 c) 1.88 d)7.70 e) 5.95 A 48.34 


19. a) 70 


60 + - 
S0F X - 
40+ 4 


30+ a 


Carga (kg) 


20 p 4 


Sacaton  Planicie del río Gila Casa Grande 
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b) Cada muestra contiene un dato atípico. 


c) En el diagrama de caja de Sacaton, la mediana está aproximadamente a la mitad entre el primer y el tercer cuartiles, 
ello sugiere que los datos entre estos cuartiles son bastante simétricos. El bigote superior de la caja es mucho mayor 
que el inferior, y hay un dato atípico en el lado superior. Esto último indica que los datos, como un todo, están ses- 
gados a la derecha. En los datos del diagrama de la planicie del río Gila, la mediana está aproximadamente entre el 
primer y el tercer cuartiles, lo que sugiere que los datos entre estos cuartiles son bastante simétricos. El bigote su- 
perior es ligeramente más largo que el inferior, y hay un dato atípico en el lado superior. Lo anterior sugiere que los 
datos, como un todo, están un poco sesgados a la derecha. En el diagrama de caja de Casa Grande la mediana está 
muy cerca del primer cuartil. Esto sugiere que hay varios valores muy cercanos entre sí, aproximadamente a un cuar- 
to de distancia de los datos. Los dos bigotes tienen aproximadamente la misma longitud, lo que sugiere que las co- 
las son aproximadamente iguales, excepto para el dato atípico en el lado superior. 


Sección 2.1 


1. 0.92 

3. a) 0.6 b) 0.9 

5. a) Falso b) Verdadero 

7. 0.94 

9. a) Falso b) Verdadero c) Falso d) Verdadero 


Sección 2.2 
.ad64 b8 024 
. 210 


1 
3 
5. 1048 576 
7. a) 36 =2.8211 x 10% b) 36% — 26% = 2.6123 x 10” c) 0.9260 
9 


. 0.5238 


Sección 2.3 
1. a) 2/10 b) 2/9 0) 1/9 


3. Dado que un estudiante es un graduado de ingeniería, es casi cierto que el estudiante tomó un curso de cálculo. Por tan- 
to P(B|A) es cercano a 1. Dado que un estudiante tomó un curso de cálculo es mucho menos cierto que es un graduado 
de ingeniería, ya que muchos graduados de otras carreras toman cálculo. Por tanto, P(A|B) es mucho menor que 1, por 
lo que P(B|A) > P(A|B). 


5. a) 0.018 b) 0.728 c) 0.272 
7. a) 0.8 b) 0.125 c) 0.12 d) 0.167 e) 0.88 f/f 0.205 8) 0.795 
9. a) 0.98 b) 0.02 c) 0.72 d) 0.18 


11. a) Los sistemas de medición fallan en forma independiente. 


b) Una causa de falla, un incendio, ocasionaría que ambos sistemas de medición fallen. Por tanto, no fallan de manera 
independiente. 
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c) Demasiado baja. El cálculo correcto utilizaría P (segundo sistema de medición fallalprimer sistema de medición fa- 
lla) en lugar de P(segundo sistema de medición falla). Porque existe una posibilidad de que ambos sistemas fallen 
en un incendio, la condición de que el primer sistema de medición falle aumenta la probabilidad de que el segundo 
sistema de medición falle también. Por tanto, P(segundo sistema de medición fallalprimer sistema de medición fa- 
lla) > P(segundo sistema de medición falla). 


13. a) 310  b)2/9 c)115  d)7/30 e) 3/10 
f No. P(B) 4% P(BIA) [o P(AN B) 2 P(A)P(B)] 


15. n = 10000. Los dos componentes son una muestra aleatoria simple proveniente de la población. Cuando la población 
es grande, los elementos en una muestra aleatoria simple son casi independientes. 


17. a) 0.011 b) 0.0033 
19. a) 5.08 x 10? b) 0.9801 c) 0.0001 d) 0.9801 


21. a) 0.9904  b0.1  c)02154  d)7 


23. Para demostrar que A* y B son independientes, se muestra que P(A* N B) = P(AJP(B). Ahora B = (AN B)U(AN B), 
y (AN B) y (4 N B) son mutuamente excluyentes. Por tanto P(B) = P(A* N B) + P(A N B); en consecuencia, P(A* N 
B) = P(B) — P(A N B). Puesto que A y B son independientes, P(A N B) = P(A)P(B). Por tanto, P(A* N B) = P(B) — 
P(A)P(B) =P(BIMI — P(A)] = PLAJP(B). Para mostrar que A y B” son independientes, basta con intercambiar A y B en 
el argumento anterior. Para mostrar que A* y B” son independientes, sustituya B con B* en el argumento anterior, y uti- 
lice el hecho de que A y B* son independientes. 


Sección 2.4 


1. a) Discreta b) Continua c) Discreta d) Continua e) Discreta 


y [10 20 30 40 50 
PO) 04 0.2 0.2 0.1 0.1 


3. 4)23  b)18l  c)1345  d) e) 23 f 181 e) 13.45 


5. ajc=01 b02 03 d1  e1 


O MN" eee 
x  p160) x  p20x) 
0 02 0 04 
1 0.16 1 0.24 
2 0.128 2 0.144 
3 0.1024 3 0.0864 
4 0.0819 4 0.0518 
5 0.0655 5 0.0311 


Cc) pa(x) parece ser el mejor modelo. Todas sus probabilidades están bastante cercanas a las proporciones de los días ob- 
servados en los datos. En contraste, las probabilidades de O y 1 para p,(x) son mucho menores que las proporciones 
observadas. 


d) No, esto no es correcto. Los datos son una muestra aleatoria simple, y un modelo representa la población. Las mues- 
tras aleatorias simples por lo general no reflejan a la población exactamente. 


9 a)2 b) 0.81 c) 0.09 d) 0.9 e) 0.162 
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0 x<l0 
11. a) 0.444 b)50ug  c) 14142 ug d) F(x)= <(4?/2— 10x +50)/1800 10<x=<70 e) 52.426 ug 
1 x>70 
0 t<0 
13. a) 5 segundos b) 5 segundos  c) F(t)= [ 1 — ¿02 1>0 d) 0.8647 e) 3.466 segundos 


f) 11.5129 segundos 


15. Con este proceso la probabilidad de que un anillo satisfaga la especificación es 0.641. Con el proceso del ejercicio 14, 
la probabilidad es 0.568. Por tanto, este proceso es mejor que el del ejercicio 14. 


17. a) 10 b) 2 


Sección 2.5 
1. a p=210,0=1.0 b) pH =4.8, 0 = 0.583 c) 1H =42.9,0 =1.62 
. 1 = 3500 horas, o = 44.7 horas 
. a) 0.625 pulg.  b) 0.0112 pulg. 
. a) 0.650 b) 0.158 


XD AN uu. Y 


. a) 150cm b) 0.447 cm 
11. a) 0.2993 b) 0.00288 


Sección 2.6 


1. a) 0.08 b) 0.36 c) 0.86 d) 0.35 e) 0.60  f) 0.65 g) 0.40 


3. a) prix(011)=0.577, pyix(1 | 1) =0.308, pyix(2]1) = 0.115 
b) pxir(0]|1)=0.522, px (1 | 1) =0.348, pxyrQ]1) = 0.130 
c) 0.538 d) 0.609 


5. a 


= 


Mx+y = 3.90 b) Oxyy = 1.179 c) P(X+Y =4) =0.35 
7. a) 100X + 200Y b) 595 ms c) 188.35 


9. a) px(0) =0.10, px(1) = 0.20, pxQ) = 0.30, px(3) =0.25, px(4) =0.15, px(x) =0six 4 0,1,2,3, 04 
b) py(0) = 0.13, py(1) = 0.21, py(Q) = 0.29, py(3) = 0.22, py(4) =0.15, py(y) =0si y 40,1,2,3,04 
c) No. La probabilidad conjunta de la función de masa no es igual al producto de las marginales. Por ejemplo, 
Pxy(0, 0) =0.05 4 px(0)py(0). 
d) px =2.15, uy = 2.05 e) 0x = 1.1948, 0, = 1.2440 


f Cov(X,Y)=1.0525  g) pxy =0.7081 
11. a) pyix(013)=0, prix(113) =0.08, py¡x(213) =0.32, prix(313) = 0.40, pyx(413) = 0.20 


b) pxir(014) =0, pxir (114) =0, pxirQ14) = 2/15, pxirB14) = 1/3, px (414) = 8/15 
cd) EV]X=3)=2.72  d E(X|Y =4) =34 
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13. a) 4z=255 b)oz=1.4309  c) P(Z=2)=0.2 


15. a) pyx(013)=0.25, pyyx(1 13) =0.25, py¡x (213) = 0.5 
b) pxir(011) =0.125, pxiy (111) =0.25, pxir(211) =0.5, pxir(3| 1) = 0.125 
c) 125  d) 1.625 


17. a) —0.000193 by) —0.00232 


_)Jx+1/2 O<x<l _)Jy+12 0O<y<l 
19. a) fi()= E para otros valores de x FhQ= de para otros valores de y 


_ JJ (Uy+3)/5 O<y<l 
2) Fnx(y 10.75) = E para otros valores de y 
e) E(Y|X =0.75) = 0.5667 
21.403  b045 00133 dux=10 %u=5 fAu=50 


0 x>0y y>0 
El as lo de otro modo 
b)P(X<1 y Y>1)=e —e?=0.2325 
co) 1 d) 2 e) 1-3e? = 0.5940 
25. a) u=40.25,0=0.11  b)n=52 


27. a) 0.3X + 0.7Y b) pH = $6, 0 = $2.52 
c) un =5$6, 0 =0.03/1.4K? — 140K + 10 000 d) K =5$50 


e) Para cualquier correlación p, el riesgo es 0.034/K? + (100 — K)? + 2p9K(100 — K). Si p 41 la cantidad se mini- 
miza cuando K = 50. 


29. a) Cov(aX, bY) = UL axpy —Max Mor = Maoxy — AMxbpy = abu xy —abuxpy = ab(Uxy—pMxHMy) = ab CovíX, Y). 
D) Pax.»y =Coví(aX, bY)/(0,x0py) =ab Cov(X, Y)/(aboxoy) = Cov(X, Y)/(0x0y) = Px.r. 


Ejercicios adicionales para el capítulo 2 
1. 0.9997 

. a) 0.15  b) 0.6667 

0.271 

0.82 


poa y 


1/3 
1 1 /-y/3 
11. a) 0.3996 b) 0.0821 Cc) fx(x) = li 50 d fi) = E $0 
e) Sí, f(x, y) = fx) fr 0). 
13. a) 0.0436 b) 0.0114 c) 0.7377 
15. 1/3 


17. a) .=6,0*=9 b u=4,0?=10 cd) u=0,0?*=10 d) u=16,0? = 328 


19. 


21. 


23. 


25. 


27. 


29. 


31. 
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a) Para la concentración de aditivo: p(0.02) = 0.22, p(0.04) = 0.19, p(0.06) = 0.29, p(0.08) = 0.30 y p(x) = 0 para 
x + 0.02, 0.04, 0.06 o 0.08. Para la fuerza de tensión: p(100) = 0.14, p(150) = 0.36, p(00) = 0.50 y px) = 0 
para x + 100, 150 o 200. 

by) No, X y Y no son independientes. Por ejemplo, P(X = 0.02 N Y = 100) = 0.05, pero P(X = 0.02) P(Y = 100) = 
(0.22)(0.14) = 0.0308. c) 0.947 d) 0.867 e) La concentración sería 0.06. 


a) prix(100/0.06) = 0.138, py¡x(150]0.06) = 0.276, py¡x(200|0.06) = 0.586 

b) pxir(0.02| 100) = 0.357, px¡y(0.04 | 100) = 0.071, px;r(0.06 | 100) = 0.286, px¡r(0.08/100) =0.286 
c) 172.4 d) 0.0500 

a) pH =3.75, 0 = 6.68 b) un=2.90,0 =4.91 c) Hp =1.08,0 = 1.81 

d) Bajo el escenario A, 0.85; bajo el escenario B, 0.89 y bajo el escenario C, 0.99. 


y 
0 1 2 


x 

a) La probabilidad conjunta de la función de masaes 0 0.0667 0.2000 0.0667 
1 
2 


0.2667 0.2667 0 
0.1333 0 0 


b) 0.8 c) 0.6 d) 0.6532 e) 0.6110 /f 0.2133 g) 0.5345 


a) mx = 9/14 = 0.6429 b) az = 199/2 940 = 0.06769 c) Cov(X, Y) = —5/588 = —0.008503 
d) Pxy =-—25/199 = —0.1256 


a) px(0) = 0.6, px(1) = 0.4, pr(x) =0six*0ol. b) pr0) = 0.4, pA1) = 0.6, py) =0siy*+0ol. 
c) Sí. Es razonable suponer que el conocimiento del resultado de una moneda no ayudará a predecir el resultado de la 
otra. 


d) p(0, 0) = 0.24, p(0, 1) = 0.36, p(1, 0) = 0.16, p(1, 1) = 0.24, p(x, y) =0 para otros valores de (x, y). 


a) Pxyrí(x, y) =1/9 parax =1,2,3y y=1,2,3. b) px() = pxQ) = pxG) = 1/3. py es igual. 
C) Ux=HMy=2  d) xr =4 e) Cov(X, Y) =0. 


Sección 3.1 


1. 
3. 
5. 


11. 


ii) 
a) Verdadero b) Falso c) Falso d) Verdadero 


a) No, no se puede determinar la desviación estándar del proceso a partir de una sola medición. 


b) Sí, el sesgo se puede calcular igual a 2 lb, ya que la lectura es 2 lb cuando el peso verdadero es 0. 


a) Sí, la incertidumbre se puede calcular con la desviación estándar de las cinco mediciones, que es 21.3 ug. 


b) No, el sesgo no se puede calcular, porque se desconoce el valor verdadero. 
Se puede tener una medición más precisa restando el sesgo de 26.2 ug, obteniendo 100.8 ug arriba de 1 kg. 


a) No, están en orden creciente, lo que no es casi nada común para una muestra aleatoria simple. 


b) No, puesto que no son una muestra aleatoria simple de una población de posibles mediciones, no se puede calcular 
la incertidumbre. 
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Sección 3.2 
1.1406 b) 0.45 c) 1.3 
3. 1.01 +0.30 mm 
5. 378.0 +0.5 pulg? 
7. 1.04 + 0.04 cm*/mol 
9. a) 64.04 + 0.39-F b) 64.04 + 0.11*F 
11. a) La incertidumbre en el promedio de las nueve mediciones es aproximadamente igual a s/ 9 = 0.081 /3 = 0.027 cm. 
b) La incertidumbre en una sola medición es aproximadamente igual a s, que es 0.081 cm. 
13. a) 87.0+0.7 mL b) 0.5 mL c) 25 
15. a) A 65*C, la producción es 70.14 + 0.28. A 80*C, la producción es 90.50 + 0.25. b) 20.36 + 0.38 
17. a) 0.016 by) 0.0089 o o 
c) La incertidumbre en ¿X + ¿Y es 0.0091. La incertudumbre en EX + ÍY es 0.011. 
d) c= 0.24; la incertidumbre mínima es 0.0078. 
Sección 3.3 
1. a) 3.2 b) 0.1 c) 0.025 d) 0.1 e) 21.8 f/f) 0.26 
3. 9.80 + 0.39 m/s? 
5. a) 1.7289 + 0.0058 s b) 9.79+0.11 m/s? 
7. a) 0.2555 + 0.0005 m/s b) 0.256 + 0.026 m/s c) 0.2555 + 0.0002 m/s 
9. a) 2.3946 + 0.0011 g/mL 
11. a) 0.27% b) 0.037% c) 4.0% d) 0.5% 
13. 9.802 m/s? + 6.0% 
15. a) 1.856 s + 0.29% b) 9.799 m/s? + 0.54% 
17. a) 0.2513 m/s + 0.33% b) 0.2513 m/s + 2.0% c) 0.2513 m/s + 0.57% 
19. 2.484 g/mL + 0.19% 
Sección 3.4 
1. a) 250+16 by 125+10 c) 17.50+0.56 
3. a) 14.25+0.25 MPa b) Reduciendo la incertidumbre en P, a 0.2 MPa. 
5. a) 1.320+0.075 cm b) Reduciendo la incertidumbre en pa 0.1 cm. 
7. 0.259 + 0.014 m/s 
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. 4) 32.6+ 3.4 MPa b) Reduciendo la incertidumbre en k a 0.025 mm”!. 


c) La implementación del proceso reduciría la incertidumbre en 7 sólo a 3.0 MPa. Es probable que no valga la pena 
implementar el nuevo proceso para una reducción tan pequeña. 


. a) 710.68 +0.15 g b) Reduciendo la incertidumbre en ba0.l g. 

. a) 2264 = 608 N/mm? by R 

. 0.0626 + 0.0013 min”* 

. 4) No, ambos implican las cantidades h y r. b) 2.68c + 0.27c 

. 283.49 mm/s + 2.5% 

. 1.41 cm 6.4% 

. 0.487 + 1.7% 

. 3 347.9 N/mm? + 29% 

. a) 17.59 um 18% b) 5.965 um? + 30% c) 2.95c + 11% d) No 


Ejercicios adicionales para el capítulo 3 


1 
3 
5. 
7 
9 
11. 


13. 
15. 


17. 
19. 
21. 


23. 


. a 1.8 b) 4.1 c) 15 d) 4.3 
. 4) 0.14 mm b) 0.035 mm 


a) (1.854 +0.073) x 10% W b) 3.9% Cc) Reduciendo la incertidumbre en H a 0.05. 


. 4) 6.57+0.17 kcal b) 2.6% c) Reduciendo la incertidumbre en la masa a 0.005 g. 
. a) 26.32 + 0.33 mm/año b) 3.799 + 0.048 años 


5.70+0.17 mm 
a) 1.4% b) Reduciendo la incertidubre en ! a 0.5% 


a) Sí, la fuerza calculada es 80 000 lb en ambos casos. 

b) No, en el método de cable dúctil los cuadrados de las incertidumbres de los 16 alambres se suman, para obtener o = 
16 x 20? = 80. Para el método de cable quebradizo, la incertidumbre en la fuerza del alambre más débil se multiplica 
por el número de alambres para obtener da = 16 x 20 = 320. 


a) 113.1 +6.1 m'/s b) 100.5 + 5.4 m/s c) Sí, la incertidumbre relativa es 5.4%. 
a) 10.04 +0.95 s”! b) 10.4+1.2 5”! c) 0.78 d) 0.63 


a) 32 833 +36 m? b) 12894 + 14 m? 

c) Esto no es correcto. Sea s la longitud de un lado del cuadrado. Ya que tanto $ como C se calculan en función de s, 
no son independientes. Con el fin de comparar a o, en forma correcta, se debe expresar A directamente en función 
des: A=s?*+215*/8 = s*(1 + 73/4). Por lo que 0, = (4A/ds)o, =2s(1 + 13/40, = 65 m?. 


a) Pz = 11.16871 +0.10 MPa b) 11.16916 
c) No. La diferencia entre los dos cálculos es mucho menor que la incertidumbre. 
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Sección 4.1 


1. a) np =0.55, 0? = 0.2475 


b) 
c) 


No. Una variable aleatoria de Bernoulli tiene valores posibles O y 1. Los valores posibles de Y son O y 2. 
f = 1.10, 0? = 0.99 


3. a) 0.05 by) 0.20 c) 0.23 d) Sí e) No 


b) 


No. Si la superficie se decolora y se agrieta, entonces X =1,Y =1y Z= l, pero X + Y =2. 


1/2 b) 12 c) 1/4 d) Sí e) Sí 
Sí, si ambas monedas salen “caras”, entonces X = 1, Y =1 y Z = 1, por lo que Z = XY. Si no, entonces Z = 0, 
y ya sea X, Y, o ambas, también son iguales a O, por lo que nuevamente Z = XY. 


Puesto que los valores posibles de X y Y son O y 1, los valores posibles del producto Z = XY son también 0 y 1. 
Por tanto, Zes una variable aleatoria de Bernoulli. 
pz=P(Z=1)=P(XY =1)=P(X=1yY=1)= P(X=)P(Y = 1) = pxpr- 


Sección 4.2 


11. 


13. 


a) 


0.2090 b) 0.2322 c) 0.1064 d) 0.0085 e) 3.2 A 1.92 
0.1172 b) 5 c) 2.5 d) 1.58 

0.0039 b) 0.2188 c) 0.1445 d) 0.9648 

0.120 + 0.032 b) 0.050 + 0.015 c) 0.070 + 0.036 

0.96 b) 0.0582 

1.346 x 107* 


Sí, sólo aproximadamente 13 o 14 de cada 100 000 muestras de tamaño 10 tendrían siete o más unidades defectuosas. 


Sí, debido a que siete unidades en una muestra de tamaño 10 es un número inusualmente grande para un buen car- 
gamento. 


0.4557 e) No, en aproximadamente 45% de las muestras de tamaño 10, dos o más unidades estarían defectuosas. 
No, debido a que dos defectuosas en una muestra de tamaño 10 no es un número inusualmente grande para un buen 


cargamento. 


Y =7X + 300 b) $930 c) $21 


15. 0.225 + 0.064 


Sección 4.3 


1. 


11. 


a E 


a) 0.0733 b) 0.0183 c) 0.0916 d) 0.9084 e) 4 Ap 2 


a) 0.2240 b) 0.4232 c) 0.5974 d) 3 e) 1.73 


a) 0.0916 b) 0.1048 c) 0.2381 


ii) 


78+12 


a) 


12.5 b) 7.0 c) 2.5 d) 1.9 e) 5.5+3.1 
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13. a) 7.295 x 10? b) Si la media de la concentración es siete partículas por mL, entonces sólo aproximadamente 


siete de cada mil muestras de 1 mL contendrían una o menos partículas. 

c) Sí, debido a que una partícula en una muestra de 1 mL es un número inusualmente pequeño si la media de la con- 
centración es siete partículas por mL. d) 0.4497 e) No. Si la media de la concentración es siete partículas por 
mL, entonces aproximadamente 45% de todas las muestras de 1 mL contendrán seis o menos partículas. 

f) No, debido a que seis partículas en una muestra de 1 mL no es un número inusualmente pequeño si la media de la 
concentración es de siete partículas por mL. 


15. 0.271 + 0.019 


Sección 4.4 


11. 


NOJA gu y 


. 0.4196 
. 0.0314 
. a) 0.1244 b) 7.5 c) 11.25 


1v) 


.a)03  bux=12  c) 0.7483 


a) 0.00890 b) 0.1275 


Sección 4.5 


1. 


Xd JN u' Y 


11. 
13. 
15. 


17. 


a) 0.8023 b) 0.2478 Cc) 0.4338 d) 0.7404 


. a) 0.0073 b) = 420 c) 9lo. percentil d) 0.4186 
. a) 0.0764 b) 9.062 GPa c) 12.303 GPa 
. a) 0.0336 b) Sí, la proporción de días se suspende; en este caso sería de sólo 0.0228. 


. a) 0.06 cm b) 0.01458 cm c) 0.2451 d) 0.0502 cm e) 0.7352 


f) El diámetro de la perforación tendría una media de 15.02 cm. La probabilidad de satisfacer la especificación será 
entonces de 0.8294. 


a) 0.0475 by 12.07 oz c) 0.0215 oz 
a) 7.8125 N/m? b) 4.292 N/m? c) 76.65 N/m? 
a) 0.7088 b) 0.2912 c) 0.0485 


a) la media es 114.8 J; la desviación estándar es 5.006 J. 
b) Sí, sólo 0.15% de los pernos tendrían torsiones de ruptura menores de 100 J. 


c) La media es 117.08 J; la desviación estándar es 8.295 J. Aproximadamente 2% de pernos tendrían torsiones de rup- 
tura menores de 100 J, por lo que el cargamento no sería aceptado. 


d) Los pernos del inciso c) son más resistentes. 


e) El método efectivamente no es válido para los pernos del inciso c). Esta muestra contiene un dato atípico (140), por 
lo que la distribución normal no se debe usar. 


808 Respuestas a los ejercicios impares 


Sección 4.6 
1. a) 3.5966 b) 0.5293 c) 3.3201 d) 5.5400 
3. a) 25.212 b) 3.9828 c) 24.903 d) 0.2148 e) 27.666 


5. a) 46.711 N/mm b) 33.348 N/mm c) Clavos con rosca anular. La probabilidad es 0.3372 contra 0.0516 pa- 
ra clavos con rosca en espiral. d) 0.0985. e) Un clavo con rosca en espiral. Sólo aproximadamente 0.01% 
de los clavos con rosca anular tienen resistencias así de pequeñas, mientras que aproximadamente 4.09% de los clavos 
con rosca en espiral la tienen. Se puede tener la certeza de que éste fue un clavo con rosca en espiral. 


7. a) $1.0565 b) 0.0934 c) $1.0408 d) 0.2090 


Sección 4.7 
l. a) 2.2222 b) 4.9383 c) 0.2592 d) 1.5403 


3. a) 4 micrones b) 4 micrones Cc) 0.5276 d) 0.0639 e) 2.7726 micrones f) 5.5452 micrones 
g) 18.4207 micrones 


5. No. Si las duraciones estuvieran distribuidas exponencialmente, la proporción de los componentes usados que duran 
más de cinco años sería la misma que la proporción de los nuevos componentes que duran más de cinco años, debido 
a la propiedad de falta de memoria. 


7. a) 1/3 año b) 1/3 año c) 0.0498 d) 0.2212 e) 0.9502 


9. a) 0.6065 b) 0.0821 c) El tiempo del primer reemplazo sería mayor de 100 horas si y sólo si cada uno de 
los focos durara más de 100 horas. d) 0.9179 e PT=tp=1-e% 


f) Sí, T — Exp(0.025). 2) 40 horas h) T—Exp(ná) 


Sección 4.8 

1. a) 8 b) 4 c) 0.00175 d) 0.9344 

3. a) 0.6667 b) 1.4907 c) 0.8231 d) 0.0208 e) 0.0550 
5. a) 0.8490 b) 0.5410 c) 1 899.2 horas d) 8.761 x 107* 

7. a) 0.3679 b) 0.2978 c) 0.4227 


9. a) 0.3679 b) 0.1353 


c) La duración del sistema será mayor de cinco horas si y sólo si las duraciones de ambos componentes fueran mayo- 
res de cinco horas. d) 0.8647 e) PT=thp=1-e f) Sí, T — Weibull(2, 0.2828) 
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Sección 4.9 


1 


3. 


. a) No b) No Cc) Sí 


T T T T T T 
0.999 - 7 


0.99 1 Az 
0.95 - 
0.9 F 
0.75F 
05h 


0.25 Pp 


0.1F 
0.05 Pp 


0.01 


Estos datos no parecen provenir de una distribución aproxi- 
madamente normal. 


0.001 + 


0.999 - 
0.99 E 


0.95 FP 
0.9P 


0.75 P 
0.5 FP 


0.25 + 
0.1 PF 
0.05 + 
O01L . El 


Los datos de MP no parecen provenir de una distribución 
aproximadamente normal. 


0.001 FP =l 


7. Sí, si los logs de los datos de MP provienen de una población normal, entonces los datos de MP provienen de una po- 


blación lognormal, y viceversa. 


Sección 4.10 


11. 


1 
3 
5. 
7 
9 


. a) 0.0793 b) 0.0170 

. 0.9772 
0.5793 

. a) 0.0951 b) 0.0344 c) 0.181 (0.278 es una raíz espuria.) 

. a) 0.6578 b) 0.4714 c) 0.6266 d) 48.02 mL 
a) 0.0002 b) Sí. Sólo aproximadamente dos de 10 000 muestras de tamaño 1 000 tendrán 75 o más losas no satis- 
factorias si se ha alcanzado el objetivo. c) No, debido a que 75 losas no satisfactorias en una muestra de 1 000 es 


un número inusualmente grande si se ha alcanzado el objetivo. 
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d) 0.3594 e) No. Más de un tercio de las muestras de tamaño 1 000 tendrán 53 o más losas no satisfactorias si se 
ha alcanzado el objetivo. f) Sí, debido a que 53 de las losas no satisfactorias en una muestra de 1 000 no es un nú- 
mero inusualmente grande si se ha alcanzado el objetivo. 


Sección 4.11 


1. 


11. 


13. 


a) X — Bin(100, 0.03), Y — Bin(100, 0.05) b) Las respuestas variarán. c) = 0.72 d) =0.18 
e) La distribución se desvía un poco de lo normal. 


. 4) MA = 6 exactamente (los resultados de la simulación serán aproximados), o = 0.25. 


b) =0.16 Cc) La distribución es aproximadamente normal. 


.a4d)=025  b)=025  c)=0.61l 


. 4,b,c) Las respuestas variarán. d) = 0.025 
. 4) Las respuestas variarán. b) =2.7 c) = 0.34 d) =1.6 
e) El tiempo de vida del sistema no está distribuido aproximadamente normal. f) Sesgado a la derecha 


a) Las respuestas variarán. b) = 10090 c) = 1250 d) = 0.58 e) = 0.095 
f) La distribución difiere un poco de la normal. 


a) y 0.25616 b,c, d) Las respuestas variarán. e) Sesgo = 0.037, 07 = 0.12. 


Ejercicios adicionales para el capítulo 4 


1. 0.9744 
3. a) 0.2503 b) 0.4744 c) 0.1020 d) 0.1414 e) 0.8508 
5. a) 0.9044 b) 0.00427 c) 0.00512 
7. a) 0.6826 b) z= 1.28 c) 0.0010 
9. a) 0.0668 b) 0.6687 c) 0.0508 
11. a) 0.8830 b) 0.4013 c) 0.0390 (0.1065 es una raíz espuria.) 
13. a) 28.0+3.7 b) 28 mL 
15. a) 0.0749 b) 4.7910 cm c) 4 
17. a) 0.4889 b) 0.8679 
19. 62 
21. a) 0.4090 b) No. Más de 40% de las muestras tendrán un peso total de 914.8 oz o menos si la afirmación es cierta. 
c) No, debido a que un peso total de 914.8 oz no es inusualmente pequeño si la afirmación es cierta. 
d) =0 e) Sí. Casi ninguna de las muestras tendrá un peso total de 910.3 0z o menos si la afirmación es verdade- 
ra. f) Sí, porque un peso total de 910.3 oz es inusualmente pequeño si la afirmación es cierta. 


23. 


a) P(X > s)= P(Primeras s tiradas son fracasos) = (1 — p)'. 

b)P(X > s+1t|X > s)=P(X > s+1! y X > s)/P(X > s)=P(X > s +10)/P(X > s)= 
(1=py*/41— pY=(1-— pl =P(X > £). Observe que si X > s +1, éste debe ser el caso que X > s, que 
es la razón de que P(X >s+1t y X >s)=P(X >s+1!0). 


25. 
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c) Sea X el número de lanzamientos de la moneda de un centavo necesario para obtener la primera cara. Entonces 
P(X>5|X> 3) = P(X > 2) = 1/4. La probabilidad de que la moneda de cinco centavos salga “cruz” dos veces 
también es 1/4. 


PX=) efi eG—D!A 


Y Fd==D =D a 


b) P(X=x)> P(X =x-—1) si y sólo si > 1si y sólo six <A. 


Xx 


Sección 5.1 


1. 
3. 
5. 


a) 1.645 b) 1.37 c) 2.81 d) 1.15 
Aumenta, disminuye 


a) (145.10, 154.90) b) (143.55, 156.45) c) 76.98% d) 601 e) 1041 


. a) (1.538, 1.582) b) (1.534, 1.586) c) 92.66% d) 385 e) 543 
. a) (27.04, 30.96) b) (26.42, 31.58) c) 86.64% d) 312 e) 540 
. a) 22.62 b) 99.38% 

. a) 70.33 b) 99.29% 

. 280 

. (83.11, 84.19) 

. a) Falso b) Verdadero c) Falso 


. El supervisor está subestimando la confianza. El enunciado de que la media del costo es menor de $160 es un límite su- 


perior de confianza unilateral con un nivel de confianza de 97.5%. 


Sección 5.2 


1. 
3. 
5. 
7. 
9. 
11. 


a) 0.74 b) (0.603, 0.842) c) 74 d) (0.565, 0.879) e) 130 

a) (0.629, 0.831) b) (0.645, 0.815) c) 300 d) 210 e) 0.0217 
0.339 

a) (0.0529, 0.1055) b) 697 c) (0.0008, 0.556) 

a) (0.490, 0.727) b) (0.863, 1) c) (0.572, 0.906) 

a) (0.271, 0.382) b) 658 c) 748 


Sección 5.3 


1. 
3. 
5. 


a) 1.860 b) 2.776 c) 2.763 d) 12.706 
a) 95% b) 98% c) 90% d) 99% e) 99.9% 
(5.303, 6.497) 


. Sí, no hay datos atípicos. Un intervalo de confianza de 95% es (203.81, 206.45). 
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11. 
13. 
15. 


Respuestas a los ejercicios impares 


a) 3 b) Sí, el intervalo de confianza es (3.2247, 3.2526) 
o .. e e... 
l 1 | 1 ] ] 
3.22 3.23 3.24 3.25 3.26 3.27 
C) o eo e e d) No, el conjunto de datos contiene un dato atípico. 
l | | | | | | ] 
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 
(12.318, 13.762) 


(0.515, 1.985) 
a) 2.3541 b) 0.888 c) 3.900 


Sección 5.4 


1 
3. 
5 
7 


. (5.589, 8.211) 


(9.683, 11.597) 


. (11.018, 32.982) 
. a) (21.789, 2.589) 


b) No, ya que O se encuentra en el intervalo de confianza, se podría considerar que es un valor creíble para la diferen- 
cia de las medias de dureza. 


No es posible. Los tiempos en cama despiertos y dormidos no son independientes. 


Sección 5.5 


1. 


3. 


5. 


11. 


(0.0591, 0.208) 
(0.232, 0.00148) 


a) (0.0446, 0.103) b) Si se muestrearan 100 chips más del proceso menos costoso, el ancho del intervalo de con- 
fianza sería aproximadamente + 0.0721. Si se hubiesen muestreado 50 chips más del proceso más costoso, el ancho del 
intervalo de confianza sería aproximadamente + 0.0638. Si se hubiesen muestreado 50 chips más del proceso menos 
costoso y 25 chips más del proceso más costoso, el ancho del intervalo de confianza sería aproximadamente + 0.0670. 
Por tanto, el mayor aumento en la precisión se lograría muestreando 50 chips más del proceso más costoso. 


No. Las proporciones de la muestra provienen de la muestra en vez de dos muestras independientes. 
(0.0481, 0.226) 


No, éstas no son muestras aleatorias simples. 
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Sección 5.6 


11. 
13. 


A 1 E 


(0.0978, 0.00975) 
(7.798, 30.602) 
(20.278, 25.922) 
(0.0447, 0.173) 
(2.500, 33.671) 
(38.931, 132.244) 
(0.614, 11.386) 


Sección 5.7 


1 
3 
5. 
7 
9 


. (2.090, 11.384) 
. (0.0456, 0.00558) 


(30.260, 26.260) 


. (9.350, 10.939) 
. a) (0.747, 2.742) b) 80% 


Sección 5.8 


1. 


a) X* —= N(8.5, 0.22, Y* = NQ1.2, 0.3) b) Las respuestas variarán. c) Tp = 0.18429 


d) Sí, P está de manera normal aproximadamente distribuida. e) (13.063, 13.785) si la propagación del error se 
utiliza para encontrar la desviación estándar. 


a) Sí, A está de manera normal aproximadamente distribuida. b) a, = 0.24042 c) (6.140, 7.083) si la 
propagación del error se utiliza para encontrar la desviación estándar. 


a) N(0.27, 0.40%/349) y N(1.62, 1.70%/143). Debido a que los valores 0.27 y 1.62 son las medias muestrales, sus varian- 
zas son iguales a las varianzas poblacionales divididas entre los tamaños de la muestra. b) No, R está de manera 
normal aproximadamente distribuida. Cc) Tr = 0.70966 d) No es adecuado, ya que R está de manera normal 
aproximadamente distribuida. 


a, b, c) Las respuestas variarán. 


a) La probabilidad de cobertura de Agresti-Coull = 0.98; para el intervalo tradicional = 0.89. La media del ancho pa- 
ra Agresti-Coull = 0.51; para el intervalo tradicional = 0.585. b) La probabilidad de cobertura de Agresti-Coull = 
0.95; para el intervalo tradicional = 0.95. La media del ancho para Agresti-Coull = 0.42; para el intervalo tradicional = 
0.46. c) La probabilidad de cobertura de Agresti-Coull = 0.96; para el intervalo tradicional = 0.92. La media del 
ancho para Agresti-Coull = 0.29; para el intervalo tradicional = 0.305. d) El método tradicional tiene una pro- 
babilidad de cobertura cercana a 0.95 para n = 17, pero menor que 0.95 tanto para n = 10 como para n = 
40. e) Agresti-Coull tiene mayor probabilidad de cobertura para tamaños de muestra de 10 y de 40, casi igual que 
para 17. f) El método de Agresti-Coull. 
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Ejercicios adicionales para el capítulo 5 


1. 
3 
5. 
y) 
9 
11. 
13. 


15. 
17. 


19. 


21. 


23. 


(1.942, 19.725) 


. (0.0374, 0.0667) 


(0.084, 0.516) 


. a) (0.0886, 0.241) b) 584 


. El intervalo más angosto (4.20, 5.83), es el intervalo de confianza de 90%, el intervalo más ancho, (3.57, 6.46), es el in- 


tervalo de confianza de 99%, y (4.01, 6.02) es el intervalo de confianza de 95%. 


(0.420, 0.238) 
441 
a) Falso b) Falso c) Verdadero d) Falso 


a) (36.804, 37.196) b) 68% c) Las mediciones provienen de una población normal. 
d) (36.774, 37.226) 
a) Debido a que X se distribuye normalmente con media nA, se tiene que para una proporción 1 — ode todas las mues- 


tras posibles, —z/0x <X — nñ< z,p0x. Multiplicando por —1 y sumando a X en toda la desigualdad se obtiene 
X= ZapOx <NA<X + Zap 0 x, que es el resultado deseado. 


b) Ya que n es constante, Ox, =0x/n=Y/ni/n == y2%/n. Por tanto 07, = 0x/n. 


c) Se divide la desigualdad del inciso a) entre n. 


d) Sustituyendo y/A/n en lugar de dz en el inciso c) se demuestra que para una proporción 1 — q de todas las posi- 
bles muestras A — Za/2 %X/n <i<i+ Zap V %X/n. Por tanto, el intervalo A + Zap y 2X/n es un intervalo de con- 
fianza para A a un nivel 1 — Q. 


e) (53.210, 66.790) 
a) 234.375 + 19.639 b) (195.883, 272.867) 


c) Hay algo de desviación de la normalidad en las colas de la distribución. El 95% intermedio sigue la curva normal 
cercanamente, por lo que el intervalo de confianza es razonablemente bueno. 


a, b, c) Las respuestas variarán. 


Sección 6.1 


1. 
3. 
5. 


11. 
13. 


a) 0.0014 b) 0.14% 
a) 0.2584 b) 25.84% 


a =0 b) Si la media de la producción diaria fuera 740 toneladas o más, la probabilidad de observar una media 
muestral tan pequeña como el valor de 715 que realmente fue observado es casi O. Por tanto, se tiene el convencimien- 
to de que la media de la producción diaria no es de 740 toneladas o más, si no que, por el contrario, es menor. 


a) 0.3300 b) Si la media de la velocidad del aire es 40 cm/s, hay 33% de probabilidad de que una muestra tenga 
una media menor o igual que el valor observado de 39.6. Debido a que 33% no es una probabilidad pequeña, es creíble 
que la media de la velocidad del aire sea 40 cm/s. 


ii) 
P = 0.0456 
a) 0.2153 b) 2.65 c) 0.0040 
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Sección 6.2 


1. 
3. 


11. 


13. 
15. 


17. 


19. 


P=0,5 


iv) 


. a) Verdadero  b) Falso  c) Verdadero  d) Falso 


a) No. El P-valor es 0.196, que es mayor que 0.05. 


b) La media muestral es 73.2461. La media muestral es, por tanto, más cercana a 73 que a 73.5. El P-valor para la hi- 
pótesis nula yu = 73, por consiguiente, será mayor que el P-valor para la hipótesis nula qu = 73.5, que es 0.196. Por 
tanto, la hipótesis nula yu = 73 no se puede rechazar al nivel de 5%. 


a) Ho:1n< 8 b) Ho: < 60 000 c) Ho:up=10 
a) ii) La balanza está fuera de calibración. b) iii) La balanza podría estar calibrada. c) No. La balanza es- 


tá calibrada sólo sí y = 10. La evidencia más fuerte en favor de esta hipótesis ocurriría si X = 10, pero puesto que hay 
incertidumbre en X, no se puede tener la seguridad aun cuando u = 10. 


No, ella no puede concluir que la hipótesis nula sea verdadera. 

1) 

a) Sí. Las cantidades mayores que el límite superior de confianza tendrán P-valores menores que 0.05. Por tanto, P < 0.05. 
b) No, se necesitaría conocer el límite superior de confianza del 99% para determinar si P< 0.01. 


Si, se puede calcular el P-valor exactamente. Ya que 95% del límite superior de confianza es 3.45, se sabe que 3.40 + 
1.6455 /./n = 3.45. Por tanto, s//n = 0.0304. El puntaje z es (3.40 — 3.50)/0.0304 = —3.29. El P-valor es 0.0005, 
que es menor que 0.01. 


Sección 6.3 


VD NN u. Y 


11. 


. Sí, P = 0.0040. 
. No, P =0.1251. 
. No, P = 0.2033. 
. No, P = 0.1251. 
. Sí, P = 0.0011. 


a) 0.69 b) —0.49 c) 0.3121 


Sección 6.4 


1. 


3. 


a) t,= 0.6547, 0.50 < P < 0.80. La balanza podría estar calibrada adecuadamente. 


b) No se puede realizar la prueba 1, ya que la desviación estándar de la muestra no se puede calcular a partir de una 
muestra de tamaño 1. 


a) Hp: 4 =35 vs. H, : u > 35 b) 1 = 2.4495, 0.025 < P. < 0.050 


c) Sí, el P-valor es pequeño, por lo que se concluye que yu > 35. 
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5. No, th = 1.7085, 0.10 < P < 0.20. 


7. Sí, ty = —2.4244, 0.01 < P < 0.025. 


9. Sí, tz = -4.0032, 0.01 < P < 0.025. 


11. a) 6.0989 b) 9.190 c) 17.384 d) —1.48 


Sección 6.5 
1. Sí, P= 0.0002 


3. No, P = 0.1336 


5. a) Ho: p¡ - m=0vs.H, : m1 — m2 > 0, P = 0.2119. No se puede concluir que la calificación promedio de las pre- 


guntas de una cola sea mayor. 


b) H : 1 p=0vs.H, : y — pa 40, P = 0.4238. No se puede concluir que la calificación promedio de las pre- 
guntas de una cola difiera de la calificación promedio de las preguntas de dos colas. 


7. a) Sí, P = 0.0217. b) No, P = 0.2514. 


9. Sí, P = 0.0006. 


11. a) ¿) 11.128, ii) 0.380484 b) 0.424, similar al P-valor calculado con el estadístico f. 


c) (0.3967, 5.7367) 


Sección 6.6 


1. 


a) Ho:p,-p2=0vs.H,:p -p2<0 b) P=0.1492 c) Máquina 1 


3. Sí, P =0.0018. 


S: 


Sí, P = 0.0367. 


7. P = 0.0643. La evidencia sugiere que el empaque de gran resistencia reduce la proporción de órdenes deterioradas, pe- 


9. 


11. 


ro no puede ser concluyente. 
No, P =0.7114. 


No, porque las dos muestras no son independientes. 


13. a) 0.660131 by) 49 c) 1.79 d) 0.073 


Sección 6.7 


a) Sí, tz = 2.5740, 0.025 < P < 0.050. b) No, tz = 0.5148, 0.25 < P < 0.40. 


. tig = —2.0143, 0.05 < P < 0.10. La hipótesis nula es sospechosa. 


. No, fis = 1.0024, 0.10 < P < 0.25. 


3 
5. No, £, = 0.3444, 0.50 < P < 0.80. 
7 
9 


. Sí, ty = 2.5615, 0.02 < P < 0.05. 


11. 
13. 
15. 
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a) Sí, fis = 6.1113, P < 0.0005. b) Sí, tig = 3.659, 0.001 < P < 0.005. 
No, tia = 1.0236, 0.20 < P < 0.50. 
a) 0.197 b) 0.339 c) —1.484 d) 6.805 


Sección 6.8 


1. 


3 
5 
7. 
9 


11. 


Sí, tg = 7.0711, P < 0.001. 


. Sí, ty = 2.6434, 0.02 < P < 0.05. 
. Sí, 4 = 4.7900, 0.001 < P < 0.005. 


Sí, fs = 3.7591, 0.002 < P < 0.010. 
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. a) Sea ug la media del número de millas por galón para taxis que utilizan neumáticos radiales, y sea ¡ug la media del 


número de millas por galón para taxis que utilizan neumáticos con cinturón. Las hipótesis nula y alternativa adecua- 
das son HA, : Hg — Mg SO contra H, : U4g — Mg > O. El valor del estadístico de prueba es ty = 8.9532, por lo que P 


< 0.0005. 


b) Las hipótesis nula y alternativa adecuadas son Hy : Hg — Mg E 2 contra H, : Hg — Mg > 2. El valor del estadístico 


de prueba es fy = 3.3749, por lo que 0.001 < P < 0.005. 


a) 1.1050 b) 2.8479 c) 4.0665 d) 3.40 


Sección 6.9 


1. 


a) Sí. S, =25,P=0.0391.  b)No.S,=7,P > 0.1094. 
c) No. S, =23, P > 2(0.0781) = 0.1562. 


S, =2+2+4+5.5+ 10 = 23.5. De la tabla, P > 2(0.1162) = 0.2324. No se rechaza. 


. Sí. W = 34, P = 2(0.0087) = 0.0174. 
. No. W = 168, z = 0.31, P = 0.7566. 


Sección 6.10 


1. 


a) Ho: p, = 0.90, p, = 0.05, pz = 0.05 b) 900, 50, 50 Cc) Xx =21.7778 
d) P < 0.005. Los verdaderos porcentajes difieren de 90%, 5% y 5%. 


Los valores esperados son 


Capacidad excesiva neta 
<0% 0-10%  11-20%  21-30%  >30% 


Pequeña 81.7572 44.7180  14.0026 4.9687 27.5535 
Grande 99.2428 54.2820  16.9974 6.0313 33.4465 


Xú = 12.9451, 0.01 < P < 0.05. Es razonable concluir que las distribuciones difieren. 


. 4) No. Sy, = 134, z = —0.46, P = 0.3228. b) Sí. S, = 249.5, z = 2.84, P = 0.0023. 

Cc) Sí. Sy =70.5, 2 = —-2.27, P = 0.0232. 

Diferencia | 0.01 0.01. —0.01 0.03 0.05 —0.05 —0.07 —0.11 —0.13 0.15 
" Signo del rango | 2 2 -2 4 5.5 5.5 7 8 9 10 
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5. a) 10.30 13.35 13.35 
6.96 9.02 9.02 
9.74 12.62 12.62 

b) x= 6.4808, P > 0.10. No hay evidencia de que los renglones y las columnas no sean independientes. 


7. iii) 
9. x= 8.0000, P > 0.10. No hay evidencia de que el generador de números aleatorios no esté funcionando adecuadamente. 


11. Sí, xi, = 41.3289, P < 0.005. 


Sección 6.11 
1. 251 


3. a) 0.01 b) 0.02 


5. No, Fs, ¡3 = 1.0429, P > 0.20. 


Sección 6.12 
1. a) Verdadero b) Falso c) Falso 


3. a) Hp: p=090 contra H,:u<90 b) X < 89.3284 

c) Ésta no es una región de rechazo adecuada. La región de rechazo consistiría de los valores para X que haría el P-va- 
lor de la prueba menor que una frecuencia de umbral elegida. Esta región de rechazo consiste de los valores para los 
cuales el P-valor será mayor que algún nivel. 

d) Ésta es una región de rechazo adecuada. El nivel de la prueba es 0.0708. 

e) Ésta no es una región de rechazo adecuada. La región de rechazo consiste de los valores para X que harían el P-va- 
lor de la prueba menor que un nivel de umbral elegido. La región de rechazo contiene los valores de X para los cua- 
les el P-valor será grande. 


5. a) Error de tipo I b) Decisión correcta c) Decisión correcta d) Error de tipo II 


7. Al nivel 1% 


Sección 6.13 
1. a) Verdadero b) Verdadero c) Falso d) Falso 


3. Aumenta 


5. a) H,: Hp = 50 000 contra HA; : 1 < 50 000 es verdadera. b) El nivel es 0.1151; la potencia es 0.4207. 
c) 0.2578 d) 0.4364 e) 618 


7. il) 


9. a) Dos colas bp=0.5 c) p=0.4 
d) Menor que 0.7. La potencia para un tamaño de muestra de 150 es 0.691332, y la potencia para un tamaño de mues- 
tra menor de 100 sería menor que éste. 
e) Mayor que 0.6. La potencia para un tamaño de muestra de 150 es 0.691332, y la potencia para un tamaño de mues- 
tra mayor de 100 sería mayor que éste. 
$) Mayor que 0.65. La potencia contra la alternativa p = 0.4 es 0.691332, y la alternativa p = 0.3 está más alejada de 
la nula que p = 0.4. Por lo que la potencia contra la alternativa p = 0.3 es mayor que 0.691332. 


11. 
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g) Es imposible decirlo del resultado. La potencia contra la alternativa p = 0.45 será menor que la potencia contra p = 
0.4 que es 0.691332. Pero no se puede decir sin calcularlo si es menor de 0.65. 


a) Dos colas b) Menos de 0.9. El tamaño de la muestra de 60 es el menor que produce la potencia mayor que o 
igual a la potencia objetivo de 0.9. 


c) Mayor de 0.9. La potencia es mayor de 0.9 contra una diferencia de 3, por lo que será mayor que 0.9 contra cual- 
quier diferencia mayor que 3. 


Sección 6.14 


1. 


3: 


E 


a) El P-valor con el ajuste de Bonferroni es 0.012. Puesto que este valor es pequeño, se puede concluir que este ajus- 
te reduce la proporción de piezas defectuosas. 


b) El P-valor con el ajuste de Bonferroni es 0.018. Puesto que este valor no es tan pequeño, no se puede concluir que 
este ajuste reduzca la proporción de piezas defectuosas. 


0.0025 


a) No. Si la media del amperaje de quemada es igual a 15 A cada día, la probabilidad de rechazar A, es 0.05 cada día. 
El número de veces en 200 días que A, es rechazada es entonces una variable aleatoria binomial con n = 200, p = 
0.05. La probabilidad de rechazar A, 10 o más veces en 200 días es entonces aproximadamente igual a 0.5636. Por 
lo que no sería inusual rechazar A, 10 veces en 200 ensayos si A, es siempre verdadera. 


b) Sí. Si la media del amperaje de quemada es igual a 15 A cada día, la probabilidad de rechazar H, es 0.05 cada día. 
El número de veces en 200 días que A, es rechazada es entonces una variable aleatoria binomial con n = 200, p = 
0.05. La probabilidad de rechazar Ay 20 o más veces en 200 días es entonces aproximadamente igual a 0.0010. Por 
lo que sería bastante inusual rechazar A, 20 veces en 200 ensayos si H, es siempre verdadera. 


Sección 6.15 


1. 
3. 


a) V = 26.323, 0 y = 0.3342 b) z=3.96, P = 0. c) Sí, V está aproximadamente normalmente distribuida. 
a) ii) y iv) b) 1), 11) y iv) 


No, el valor 103 es un dato atípico. 


a) S = 200.28, > = 39.833, A = 5.02. b) No, la prueba F requiere la suposición de que los datos están normal- 
mente distribuidos. Estos datos contienen un dato atípico (103), por lo que no se debe usar la prueba F. c) P=37. 
x-7 
a) El estadístico de prueba es f = SIT HA, se rechazará si |t] > 2.447. b) = 0.60. 
s 


Ejercicios adicionales para el capítulo 6 


1. 


Éste requiere una prueba para la diferencia entre dos medias. Los datos no están apareados. Sea yu, la media poblacio- 
nal del costo anual para automóviles que usan combustible regular, y yu, la media poblacional del costo anual para au- 
tomóviles que usan combustible premium. Entonces las hipótesis nula y alternativa adecuadas son A, : 4; = M2 =0 
contra H, : 4, — uu» <O. El estadístico de prueba es la diferencia en la media muestral de los costos entre los dos gru- 
pos. La tabla z se debe utilizar para encontrar el P-valor. 


Éste requiere una prueba para una proporción poblacional. Sea p la proporción poblacional de las piezas defectuosas ba- 
jo el nuevo programa. Las hipótesis nula y alternativa adecuadas son H, : p = 0.10 contra H, : p < 0.10. El estadístico 
de prueba es una proporción muestral de las piezas defectuosas. La tabla z se debe utilizar para determinar el P-valor. 
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. a) Ho: > 16 contra H,:u < 16 b) to = —2.7388 c) 0.01 < P < 0.025, rechaza a Ho. 

. 4) Ho: pi — 2 =0 contra A, : py — po 0 b) th =2.1187 c) 0.05 < P < 0.10, H, es sospechosa. 

. Sí. z=4.61, P=0. 

. a) Rechaza a H, si X > 100.0196 o si X < 99.9804. b) Rechaza a Hy si X > 100.01645 o si X < 99.98355. 


c) Sí d) No e) 13.36% 


13. a) 0.05 b) 0.1094 

15. El P-valor con el ajuste de Bonferroni es 0.1228. No se puede concluir que la tasa de fallas en la línea 3 sea menor de 
0.10. 

17. a) Ambas muestras tienen una mediana de 20. b) W = 281.5, z = 2.03, P = 0.0424. El P-valor es bastante pe- 
queño. Si la hipótesis nula establece que las medianas poblacionales eran iguales, proporcionaría una razonable fuerte 
evidencia de que las medianas poblacionales eran efectivamente diferentes. 

c) No, la muestra X está pesadamente sesgada a la derecha, mientras que la muestra Y es fuertemente bimodal. No pa- 
rece razonable suponer que estas muestras provengan de poblaciones con la misma forma. 

19. a) Sea ua la media del cociente empuje/peso para el combustible A, y sea ug la media del cociente empuje/peso para 

el combustible B. Las hipótesis nula y alternativa adecuadas son A, : 4, — Mg SO contra HA, : Ma — Mg > 0. 
b) Sí, tg = 2.0339, 0.025 < P < 0.05. 

21. a) Sí b) La conclusión no está justificada. El ingeniero está concluyendo que A, es verdadera debido a que la 

prueba falla al rechazarla. 

23. No, x3 = 2.1228, P > 0.10. 


Sección 7.1 


11. 


0.8214 


a) El coeficiente de correlación es adecuado. Los puntos están aproximadamente agrupados alrededor de una recta. 
b) El coeficiente de correlación no es adecuado. La relación es una curva, no es lineal. 


c) El coeficiente de correlación no es adecuado. La gráfica contiene datos atípicos. 
Más de 0.6 
a) Entre la temperatura y la producción, r = 0.7323; entre la tasa de agitación y la producción, r = 0.7513; entre la 


temperatura y la tasa de agitación, r = 0.9064. 


b) No, el resultado se podría deber a la confusión, ya que la correlación entre la temperatura y la tasa de agitación es- 
tá alejada de 0. 


c) No, el resultado se podría deber a la confusión, ya que la correlación entre la temperatura y la tasa de agitación es- 
tá alejada de 0. 

a) (0.8632, 0.1739) b)z= -2.31, P = —0.0104, se puede concluir que p < 0.3. 

c) U = —1.6849, 0.10 < P < 0.20, es creíble que p = 0. 


a y=2 by = -3 c) y = -1.1699 d) y = -9.8301 e) Para que la correlación sea igual a 
—1, los puntos se encontrarían en una recta con pendiente negativa. No existe un valor para y para este caso. 
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Sección 7.2 


1. 
3. 


5. 


Le 


a) 319.27 lb b) 5.65 lb 


0.8492 
a) 18.869 pulg. b) 70.477 pulg. c) No, algunos de los hombres cuyos puntos se encuentran debajo de la 
recta de mínimos cuadrados tendrán brazos más cortos. 
a) 8 T T T T 
e 
T h ] 
e 
¿2 e 
= 6L 
5 El modelo lineal es adecuado. 
Sp . el 
e e e 
4 l l l l 
3 10 15 20 25 30 
Peso 
b) y = 8.5593 — 0.15513x. c) 0.776 millas/galón d) 6.23 millas/galón e) Millas por galón por tone- 
lada f) Millas por galón 
a) 9 T T T T 
e 
e e 
8.5 p Z 
o 
ES e 
E] 
E e e 
2 8 e . 
o El modelo lineal es adecuado. 
a 
5 e 
as | A 7 
e 
z]) 1 1 1 1 
+ 4.5 5 5.5 6 
Concentración 


b) y = 12.193 — 0.833x c) (8.86, —0.16), (8.69, 0.11), (8.53, —0.23), (8.36, 0.34), (8.19, —0.09), (8.03, —0.03), 
(7.86, 0.24), (7.69, 0.01), (7.53, —0.03), (7.36, —0.16) d) Disminuye en 0.0833 horas. 

e) 8.53 horas f) No, ya que el 7% está fuera del rango de concentraciones presentes en los datos. 8) 4.79% 
h) No se puede especificar esa concentración. De acuerdo con la recta de mínimos cuadrados, una concentración de 
7.43% daría como resultado un tiempo de secado de seis horas. Sin embargo, puesto que 7.43% está fuera del rango de los 
datos, esta predicción no es confiable. 


11. y =20+ 10x 


13. iii) 
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Sección 7.3 


1. 


a) Bo = 4.7829, B, = 3.0821 b) 0.2169 c) Para fp: (4.409, 5.157) para f,: (2.948, 3.216) 

d) No. tz = 1.271, 0.10 <P < 0.25. e) Sí. t,3 = 3.965, P < 0.0005. $) (9.098, 9.714) 

g) (8.063, 10.749) h) El intervalo de confianza es más útil ya que considera la longitud verdadera del resorte, 
mientras que el intervalo de predicción considera la siguiente medición de la longitud. 


a) La pendiente es 0.84451; el intercepto es 44.534. 

b) Sí, el P-valor para la pendiente es = O, por lo que el caballo de fuerza está relacionado con NO,. 

c) 52.979 mg/s 

d) 0.920 e) (74.6, 82.0) f) No. Un razonable rango de los valores pronosticados está dado por el intervalo 
de predicción del 95%, que es (29.37, 127.26). 


a) Ho: Be Pg=0 b) Sí. z = 2.10, P = 0.0358 


a) y =2.11 — 0.776x b) Para fp: (2.07, 2.16) para f,: (0.829, —0.722). c) 0.795 
d) (0.742, 0.847) e) (0.675, 0.914) 


El intervalo de confianza en 1.5 sería más corto. El intervalo de confianza en 1.8 sería más largo. 


. 1.388 
. a) 0.256 b) 0.80 c) 1.13448 d) 0.001 


. a) 553.71 b) 162.06 c) Debajo 


d) Hay mayor cantidad de dispersión vertical en el lado derecho de la gráfica que en el lado izquierdo. 


Sección 7.4 


1. 


3. 


a) ln y = -0.4442 + 0.79833 In x b) 330.95 c) 231.96 d) (53.19, 1 009.89) 


a) y = 20.162 + 1.269x 


b) 15 + 7 
? e 
10p . al 
e 
e : e 
5+ -] 
o e 
3 0 PN . . No existe un patrón aparente en la gráfica de residuos. 
a A o . El modelo lineal es adecuado. 
e o 
=5 PS e e a e el 
a e 
-10 tp . A 
e 
l l l l l 
50 55 60 65 70 73 


Valor ajustado 


15 T 7 


10 


Residuo 
o 


| 
10 


] 
15 


20 


Orden de las observaciones 


. a) y = -235.32 + 0.695x. 


25 


») 1500 


1000 


500 


Residuo 
o 


Residuo 


| 1 ! 
2000 3000 4000 5000 


Valor ajustado 


0.0745 + 0.925 In x. 


5 3.3 


6 65 7 


Valor ajustado 
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Los residuos aumentan con el tiempo. El modelo li- 
neal no es adecuado. El tiempo, u otras variables rela- 
cionadas con el tiempo, se deben incluir en el modelo. 


La gráfica de residuos muestra un patrón con residuos 
positivos en los valores ajustados altos y bajos y resi- 
duos negativos en medio. El modelo no es adecuado. 


La gráfica de residuos no muestra un patrón obvio. El 
modelo es adecuado. 


e) El modelo log es más adecuado. El intervalo de predicción del 95% es (197.26, 1 559.76). 
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b) 


(0) 


Residuo 


Residuo 


0.4 


0.6 


Respuestas a los ejercicios impares 


0.5 1 1.5 2 2.5 


Valor ajustado 


e 
E . . 
qe A o 
L e e ó 
ll e...” d e 
. . e . 
Ñ e o. re . e 
Ñ . ad e 
. 
M e 
1 | | | | | 
1 1.5 Z ZO 3 3.5 
Valor ajustado 
T T T T T 
L e 
. . . y 
L . > 
: . “rs e 
e . 
e 
. 
y a ... * * . 
e 
. 
l e e . 
e. o. e. 
E e 
E e 


T T T T 
b e Pote e 

> A "o. 

ese AS e. % 
e 

¡E o e 
AS 
E e 
| | | | 
0 0.5 1 1,5 


Valor ajustado 


La recta de mínimos cuadrados es 
y = 0.833 + 0.235x. 


La recta de mínimos cuadrados es 
y = 0.199 + 1.207 In x. 


La recta de mínimos cuadrados es 
y = 0.0679 + 0.137x. 
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d) 02 T T T ] 
. . A ] % e 
o ont, e A 
0 e 
0 e. * 2 ” 
e. et . 
o e 
3 j OS 
3 0 . La recta de mínimos cuadrados es 
E * Y = 0.956 + 0.0874x. 
0.4 ¿l 
0.6 z ] 
l l l l l l 
1 1.2 1.4 1.6 1.8 2 


Valor ajustado 


e) El modelo y = 0.199 + 1.207 In x ajusta mejor. Su gráfica de residuos muestra el patrón mínimo. 


PD 0.2 T T T T 
0.5F 7] 
e 
e e. 
Dl a. e . pS e 
e 
3 . e e Ñ ES e y 
Z 0 as o. . * ye Los residuos no muestran un patrón con el tiempo. 
[52 . 
.?. .. y ee 
=0.5 1 ? - 
e 
-1 | | ] 1 
10 20 30 40 50 
Día 


g) 2.14 h) (1.689, 2.594) 


9. a) El modelo es log¡, y = f, + 6, log¡p x + €. Observe que el logaritmo natural (In) se podría usar en lugar de log ¡¿, pe- 
ro los logaritmos comunes son más convenientes, ya que las presiones parciales se expresan como potencias de 10. 
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d) 0.4 E E 
0.3 L o =] 
e ll e e 
0.215 e e | 
0.1 + * y 
Z 0 a 
É . a La recta de mínimos cuadrados es log¡, y = -3.277 
qu : . |. — 0.225 log; x. El modelo lineal parece ajustar bas- 
=0.2b A +. ] tante bien. 
03 p ñ Ñ y o y 
0.4 - Y 
0.5 ul 1 
=2 1,5 ==] 0.5 


Valor ajustado 


c) La teoría establece que el coeficiente $, de log,yx en el modelo lineal es igual a —0.25. El valor estimado es B = 
0.225. Se determina si los datos son consistentes con la teoría mediante la prueba de hipótesis H, : $, = 0.25 
contra H, : B| 4 —0.25. El valor del estadístico de prueba es f,, = 0.821, por lo que 0.20 < P < 0.50. No se recha- 
za H,, por lo que los datos son consistentes con la teoría. 


11. a) y = 2049.87 — 4.270x by (12, 2 046) y (13, 1 954) son datos atípicos. La recta de mínimos cuadrados con (12, 
2 046) eliminado es y = 2 021.85 — 2.861x. La recta de mínimos cuadrados con (13, 1 954) eliminado es y = 2 069.30 
— 5.236x. La recta de mínimos cuadrados con ambos datos atípicos eliminados es y = 2 040.88 — 3.809x. 
c) Las pendientes de las rectas de mínimos cuadrados están notoriamente afectadas por los datos atípicos. Su rango es 
de —2.861 a — 5.236. 

13. a) Una ley física. b) Sería mejor repetir el experimento. Si los resultados de un experimento violan una ley físi- 
ca, entonces algo está equivocado en el experimento, y no puede fijar éste al transformar las variables. 


Ejercicios adicionales para el capítulo 7 


11. a) Bo = —0.0390, B, = 1.017 b)0 c) El coeficiente de absorción molar M. d) Probando Hp: fp = 0 
contra H, : By 4 0, t4 = 0.428 y 0.50 < P < 0.80, por lo que los datos son consistentes con la ley de Beer-Lambert. 


3. a) 100 T T T T T 
o 
ee, . 7 
.* A e” e. 
e 
80 - a. a E y 
.. .. % 
. 
70 : il e .8 y 
e .e.o, 
60L . =l 
e e, .. Ñ 
. . 
SOL ¿o ZJ 
. 
e A A E O ES A 


40 50 60 70 80 90 100 


11. 


13. 


15. 


17. 


19. 


Respuestas a los ejercicios impares 827 


b) T,,, = 120.18 — 0.6967. c) (0.888, —0.503) d) 71.48 minutos e) (68.40, 74.56) 
£) (45.00, 97.95) 
a) B, = 0.8182, $, = 0.9418 b) No. ty = 1.274, 0.20 < P.< 0.50. c) Sí. ty = 5.358, P < 0.001. 


d) Sí, puesto que se puede concluir que $, + 1, se puede concluir que la máquina está fuera de calibración. 

e) (18.58, 20.73) $) (15.09, 73.23) g) No, cuando el valor verdadero es 20, el resultado del inciso e) mues- 
tra que un intervalo de confianza de 95% para la media de los valores medidos es (18.58, 20.73). Por tanto, es creíble 
que la media de la medición será 20, por lo que la máquina está calibrada. 


a) y= 0.041496 + 0.0073664x b) (—0.00018, 0.01492) c) (0.145, 0.232) d) (0.0576, 0.320) 


a) In y = B, + B, In x, donde fB, = Ink y f, =5r 
b) La recta de mínimos cuadrados es ln y = —1.7058 + 0.65033 1n x. Por tanto, ? = 0.65033 y k = e '"% = 0.18162. 
c) Tz = 4.660, P = 0.019. No, esto no es creíble. 


a) Bo = 60.263, B, = 0.11653, s? = 0.38660. b) Sí. iy = 80.956, P = 0. Cc) Sí. ty = 36.294, P = 0. 
d) IE i 
e 
e 
USE a . al 
e 
e o 
E 0 El modelo lineal parece ser adecuado. 
eZ e 
e 
O 
0.5 FP e e 3 
=lrP e. - 
l l l l 
80 85 90 95 


Valor ajustado 


e) (0.10938, 0.12369) f) (86.083, 86.883) 8) (85.041, 87.925) 

ii) 

a) 145.63 b) Sí. r = —y/R-Sq = —0.988. Observe que r es negativo porque la pendiente de la recta de mínimos 
cuadrados es negativa. c) 145.68. 


a) Se necesita minimizar la suma de cuadrados S = Y (y, — Bx,)?. Se toma la derivada con respecto a B y se hace 
igual a 0, obteniendo —2 )7 x,(y, — Bx;) = 0. Entonces Y x, y; — BY x? =0, por lo que B =D x,y,/ Y x?. 


b) Sea c, = x,/ Y) x?. Entonces B= Y cy, por lo que 5 =Yi cdo? =0") x?/ AS =0 Vx 


De la respuesta del ejercicio 18, se sabe que E =x)=0, Es x(x, —x)=0, y ya Xxi(x; — x) = 
S _, (1; — X)?. Ahora 


_EJl_ 7-x) 
1-2 E ia > Ñ 


Ñ 1 Fx, —X) solas 
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n n 


a 1 Xi Ny FX; — X) 
= MY FB o Sam 


i=1 


Ep Xx ¡X(x; — X) 
jar — 1)? 


Bi 


i=1 


RR x¡(x, — x) 


= Po+ Bix 0 Br = 
Y jas ue 
= Po + Pix —0— Byx 
= Bo 
21. n _ 
, Ll... HR | y 
OR = = 
Po 2, E ES xy 
Zi 2r ¿= " (a — TY 
A 
¡=1 4 Ml ias — Y) Dn = x)] 
“1 Y” (xa —X ñ "(a —x) , 
Ñ y 2 2 apar El a ata o 
a ús ias On 4 Po 0 a] 
1 = 2 
= 2=(0)+ =, — - a? 
E Nr => aye 
pa E , 
m Ea - xy 
Sección 8.1 
1. a) 6.9619 b) 0.03925 c) 0.5413 
3. 0.5 ; ; ; 
. e 
e. e 
e . 
0 e 
o 
3 a .* No hay un patrón obvio en la gráfica de residuos, por lo 
E a 4 que el modelo lineal parece ajustar bien. 
=0.5 | 
e 
=1 | ] ] 
4 e) 6 7 8 
Valor ajustado 
5. a) 25.465 b) No, los cambios pronosticados dependen de los valores de las otras variables independientes, debi- 


do a los términos de interacción. c) 0.9691 d) Fy 17 = 59.204. Sí, la hipótesis nula se puede rechazar. 


11. 


13. 


15. 


17. 


19. 
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a) 2.3411 L b) 0.06768 L c) Nada está equivocado, las estimaciones constantes FEV, respecto de una per- 
sona cuyos valores para los otras variables sean todas iguales a cero. Debido a que estos valores están fuera del rango 
de los datos (por ejemplo, no hay ninguna con estatura cero), la constante necesita no representar un valor real para una 
persona real. d) FEV, ajustado = FEV, medido + 0.0013431 - presión. 


a) 3.572 b) 0.098184 c) Nada está equivocado. Las estimaciones constantes del pH respecto de una pulpa 
cuyos valores para las otras variables sean iguales a cero. Puesto que estos valores están fuera del rango de los datos 
(por ejemplo, no pulpa tiene densidad cero), la constante necesita no representar un valor real para una pulpa 
real. d) (3.4207, 4.0496) e) (2.2333, 3.9416) f) Pulpa B. La desviación estándar de su pH pronosti- 
cado (SE Fit) es más pequeño que para la pulpa A (0.1351 contra 0.2510). 


a) -2.05 b) 0.3512 c) 0.2445 d) 4.72 e) 13.92 Af) 18.316 g) 4.54 hy) 9 


a) 135.92%F  b) No. El cambio en el punto de inflamación pronosticado debido al cambio en la concentración del áci- 
do acético depende también de la concentración del ácido butírico, debido a la interacción entre estas dos variables. 
c) Sí. El punto de inflamación pronosticado cambiará por — 13.897". 


a) -9.17819, —1.42732, 123.26818, —151.35236, 50.12800, —11.43494 b) SSE = 40 832.432, SST = 1990 660 
c) =13 610.811 d) R? =0.979487 e) F = 71.6257. Hay dos y tres grados de libertad. f) Sí. A par- 
tir de la tabla F, 0.001 < P < 0.01. 


a) 2.0711 b) 0.17918 c) PP es más útil, ya que su P-valor es pequeño, mientras que el P-valor de PC es bas- 
tante grande. d) El cambio porcentual en el PIB se esperaría que fuese mayor en Suecia, porque el coeficiente de 
PP es negativo. 


a) y = -0.012167 + 0.0432581 + 2.9205f b) (2.830, 3.011) c) (5.660, 6.022) d) Bo: t, = —1.1766, 
P = 0.278, Bi t, = 1.0017, P = 0.350, B): t, = 76.33, P = 0.000. e) No el P-valor de 0.278 no es lo suficiente- 
mente pequeño para rechazar la hipótesis nula de ff, = 0. f) No, el P-valor de 0.350 no es lo suficientemente pe- 
queño para rechazar la hipótesis nula de fB, = 0. 


Sección 8.2 


1. 


Al Desviación 
Pronosticador Coeficiente estándar T Pp 
Constante 6.3347 2.1740 2.9138 0.009 
Xi 1.2915 0.1392 9.2776 0.000 


Bo difiere de O (P = 0.009), fB, difiere de O (P = 0.000). 


») Desviación 
Pronosticador Coeficiente estándar T P 
Constante 53.964 8.1737 6.1506 0.000 
X3 0.9192 0.2821 3.2580 0.004 


Bo difiere de O (P = 0.000), fB, difiere de O (P = 0.004). 
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Desviación 
Pronosticador Coeficiente estándar T P 
Constante 12.844 7.5139 1.7094 0.104 
Xi 1.2029 0.1707 7.0479 0.000 
X> 0.1682 0.1858 —0.90537 0.377 


Bo puede no diferir de O (P = 0.104), f, difiere de O (P = 0.000) 6, puede no diferir de O (P = 0.377). 


El modelo en el inciso a) es el mejor. Cuando tanto x, y x, están en el modelo, sólo el coeficiente de x, es significa- 


tivamente diferente de O. Además, el valor de R? es sólo ligeramente mayor (0.819 contra 0.811) para el modelo que 
contiene tanto a x, como x, que para el modelo que sólo contiene a x;. 


3. a) 


La gráfica ¿) proviene del ingeniero B, y la gráfica ¡¿), del ingeniero A. Se sabe esto porque las variables x, y x, son 


significativamente diferentes de O para el ingeniero A, pero no para el ingeniero B; por tanto, el ingeniero B es quien 
diseñó que el experimento tenga las variables dependientes casi colineales. 


b) El experimento del ingeniero A produce el experimento con los resultados más reales. En el experimento del inge- 


niero B, las dos variables son casi colineales. 


5. a) Para R;, < 4, la recta de mínimos cuadrados es R, = 1.23 + 0.264R,. Para R;¡ = 4, la recta de mínimos cuadrados 


es R, = —0.190 + 0.710R,. 


b) La relación es obviamente no lineal cuando R;, < 4. 


Desviación 
Pronosticador Coeficiente estándar T P 
Constante 1.2840 0.26454 4.8536 0.000 
R; 0.21661 0.23538 0.91947 0.368 
R A 0.0090189 0.044984 0.20049 0.843 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 1.8396 0.56292 3.2680 0.004 
R; 4.4987 0.75218 5.9809 0.000 
R? 1.7709 0.30789 3.7518 0.000 
Ri 0.22904 0.039454 5.8053 0.000 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 2.6714 2.0117 1.3279 0.200 
R; 6.0208 3.6106 1.6675 0.112 
Ri 2.7520 2.2957 1.1988 0.245 
R a 0.49423 0.61599 0.80234 0.432 
Ri —0.02558 0.05930 —0.,43143 0.671 


Respuestas a los ejercicios impares 831 


c) 
Modelo cuadrático ábi Modelo cuadrático 
os í os Odo eubién os E 
1] o . 
. * o . o Si . 
ol." . + a te 2 a ——_——— 
ó á e Es] *...o Es] es. 
... [59 e [54 . 
e. y Ml 
1 
0.5 | 0.5 1 l 0.5 
15 2 2.5 1 1.5 2 25 1.5 2 2,5 
Valor ajustado Valor ajustado Valor ajustado 
d) 
250 T T 
e 
e 
200 FP 7 
e 
e 
150F e 7 
Ri * El coeficiente de correlación entre Ri y Ri es 0.997. 
100 F 7 
e 
e 
sor 7 
e 
. 
pqLee 1 l 
0 20 40 60 
3: 
R; 


3. p ay 

e) R¡ y R; son casi colineales. 
f) El modelo cúbico es mejor. El cuadrático no es adecuado porque la gráfica de residuos muestra un patrón. Las grá- 
ficas de residuos para los modelos cúbicos y cuárticos ajustan bien; sin embargo, no hay razón para incluir RÍ en el 


modelo porque éste simplemente confunde el efecto de Ri. 


Sección 8.3 


1. 
3. 


5. 


c) Falso d) Verdadero 


a) Falso b) Verdadero 


v) 

1) 

La cuarta variable del modelo con el valor más alto de R? tiene un menor R? que la tercera variable del modelo con el 
valor más alto de R?. Esto es imposible. 


a) 0.2803 b) Tres grados de libertad en el numerador y 157 en el denominador. c) P > 0.10. El modelo re- 

ducido es creíble. d) Esto no es correcto. Es posible para un grupo de variables que están fuertemente relaciona- 

das con una variable independiente, aun cuando ninguna de las variables individualmente esté fuertemente relacionada. 

e) No hay error. Si y es la variable dependiente, entonces la suma total de cuadrados es No — y). La cantidad no 
implica las variables independientes. 
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11. a) a 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.087324 0.16403 0.53237 0.597 
XxX 0.52203 0.055003 9.4909 0.000 
xe —0.02333 0.0043235 5.396 0.000 
24 Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.19878 0.11677 1.7023 0.096 
Inx 1.2066 0.068272 17.673 0.000 
c) 
Modelo cuadrático Modelo logarítmico 
1 T T T 1 T T T 
0.5st 7 0.5t . al 
e A e e e e e 
9 e PR + e? “e El ó E ? .o e 
3 e El e 
3 0 : e o =- E 0 ¿e =. > 
e e e e. % 4 e e 
p "ce pa . e. 
SOL: =l 0.5 . 2) 
e e 
Al 1 1 1 E A A 
0 1 2 3 4 0 1 2 3 4 
Valor ajustado Valor ajustado 
Ninguna de las gráficas de residuos revela un fuerte incumplimiento de los supuestos. 
d) e 
Modelo cuadrático Modelo log 
x de predicción de predicción 
3.0 1.44 1.52 
5.0 2.11 2.14 
7.0 2.60 ZOO 
9.0 2.90 2.83 


e) La prueba F no se puede utilizar; sólo puede emplearse cuando un modelo se forma eliminando una o más de las va- 
riables independientes del otro modelo. 


f) Las predicciones de los dos modelos no difieren mucho. El modelo logarítmico tiene sólo una variable independien- 
te en lugar de dos, lo que es una ventaja. 
13. a) E 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 37.989 53.502 0.71004 0.487 


x 1.0774 0.041608 — 25.894 0.000 
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b) E 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 253.45 132.93 1.9067 0.074 
x 1.592 0.22215 7.1665 0.000 
7 —0.00020052 0.000085328  —2.3499 0.031 
c) 
Modelo lineal 
200 E T T T 7] 
e 
150t 7 
e 
100 p 7 
o 
3 50 HF ll e A a A 
2 0 Pm o 
0 0 e 
=50 pb . Al 
100 .. : o 7 
150 | | l 
500 1000 1500 2 000 
Valor ajustado 
d) 
Modelo cuadrático 
150 r e! 7 
100 A 
e o e 
50 A 
e e e 
[e] 
E] 
3 
ES] 
e 0 0 
=50 Fe e e J 
e 
100 A 
150 1 ] > y 
500 1 000 1500 2 000 2 500 


Valor ajustado 
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e) El modelo cuadrático parece el más apropiado. El P-valor para el término cuadrático es bastante pequeño (0.031) y 
la gráfica de residuos para el modelo cuadrático muestra menos de un patrón. (Sin embargo, hay un par de puntos 
un poco alejados del resto de la gráfica.) 


£) 1683.5 2) (1 634.7, 1 732.2) 
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15. 


17. 
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a) on 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 25.613 10.424 2.4572 0.044 
Xi 0.18387 0.12353 1.4885 0.180 
X2 —0.015878 0.0040542  —3.9164 0.006 
b) EZ 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 14,444 16.754 0.86215 0.414 
XxX 0.17334 0.20637 0.83993 0.425 
Cc) E 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 40.370 3,4545 11.686 0.000 
Xa -0.015747 0.0043503 3.6197 0.007 


d) El modelo que contiene a x, como la única variable independiente es mejor. No hay evidencia de que el coeficiente 
de x, difiera de O. 


El modelo y = f, + fix, + e es uno bueno. Una forma de ver esto último es comparar el ajuste de este modelo con el 
modelo cuadrático completo. La tabla ANOVA para este modelo es 


Fuente GL sc MC F P 


Regresión 5 4.1007 0.82013 1.881 0.193 
Error de residuos 9 3.9241 0.43601 
Total 14 8.0248 


La tabla ANOVA para el modelo y = f, + fix, + € es 


Fuente GL sc MC F P 


Regresión 1 2.7636 2.7636 6.8285 0.021 
Error de residuos 13 5.2612 0.40471 
Total 14 8.0248 


A partir de estas dos tablas, el estadístico de prueba para probar la credibilidad del modelo reducido es 
(5.2612 — 3.9241)/(5 — 1) 


3.9241/9 
reducido es creíble. 


= 0.7667. La hipótesis nula es F, y, P > 0.10. El P-valor grande indica que el modelo 


Ejercicios adicionales para el capítulo 8 


1. a) 24.6% b) 5.43% c) No, se necesita conocer el contenido de oxígeno. 


3. a) 0.207 b) 0.8015 c) 3.82 d) 1.200 e) 2 f) 86.81 g) 43.405 h) 30.14 1) 14 


5. a) 


b 


= 
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Desviación 
Pronosticador Coeficiente estándar T Pp 
Constante 10.84 0.2749 39.432 0.000 
Velocidad —0.073851 0.023379 3.1589 0.004 
Pausa —0.12743 0.013934 9.1456 0.000 
Velocidad? 0.0011098 0.00048887 2.2702 0.032 
Pausa? 0.0016736 0.00024304 6.8861 0.000 
Velocidad - Pausa —0.00024272 0.00027719 —0.87563 0.390 
Análisis de varianza 
Fuente GL sc MC F P 
Regresión ) 31.304 6.2608 56.783 0.000 
Error de residuos 24 2.6462 0.11026 
Total 29 33.95 
Se elimina el término de interacción Velocidad - Pausa. 

Desviación 
Pronosticador Coeficiente estándar T P 
Constante 10.967 0.23213 47.246 0.000 
Velocidad —0.079919 0.022223 3.5961 0.001 
Pausa -0.13253 0.01260 10.518 0.000 
Velocidad? 0.0011098 0.00048658 2.2809 0.031 
Pausa? 0.0016736 0.0002419 6.9185 0.000 
Análisis de varianza 
Fuente GL sc MC F P 
Regresión 5 31.22 7.8049 71.454 0.000 
Error de residuos 25 2.7307 0.10923 
Total 29 33.95 


Comparando este modelo con el del inciso a), F, 24 = 0.77, P > 0.10. 
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c) 1 T T T T 
e 
0.5 FP 7 
.. e . 
Ñ : a ls E 
S .. . ,* Hay cierta sugerencia de heteroscedasticidad, pero es di- 
2 0 = fícil de estar seguros sin más datos. 
$ be e e e 
eZ ct... 
cc. e 
e 
=0.5 p . * a 
e 
A OOOO] 


6 7 8 9 10 11 
Valor ajustado 


d') No, comparado con el modelo cuadrático completo que contiene Velocidad, Pausa, Velocidad? y Pausa?, y Velocidad 
* Pausa, el estadístico F es F3 74 = 15.70, y P > 0.001. 


e) < 

p 

e 

e 

d 

S Pe 

Ss Pp a P 

fp. a e Uu a 

e u e su 

e s d e ss 

Vars R-Sq R-Sqladj)  C-p S de 2 2 e 

1 61.5 60.1 92.5 0.68318 X 

1 60.0 58.6 97.0 0.69600 X 

2 76.9 1552 47.1  0.53888 X X 
2 74.9 73.0 53.3 0.56198 X X 

Sl 90.3 89.2 7.9 0.35621 X X X 

a 87.8 86.4 5.5 0.39903 X XX 
4 92.0 90.7 4.8 0.33050 X X X X 

4 90.5 89.0 9.2 0.35858 X  X XX 

5 92.2 90.6 6.0 0.33205 X X X X X 


f) El modelo que contiene las variables dependientes Velocidad - Pausa, Velocidad? y Pausa”, tienen tanto el valor mí- 
nimo de C,, como el valor máximo de a ajustado. 
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7. Modelo lineal 


0 > . La gráfica de residuos muestra un patrón curvo obvio, 
por lo que el modelo lineal no es adecuado. 


Residuo 


-20L 


80 | ! E 
100 200 300 400 
Valor ajustado 


Modelo cuadrático 


No hay un patrón obvio en la gráfica de residuos, por lo que el 
e ee modelo cuadrático parece ajustar bien. 


Residuo 
o 


0 100 200 300 400 
Valor ajustado 


Modelo cúbico 


No hay un patrón obvio en la gráfica de residuos, por lo 
que el modelo cúbico parece ajustar bien. 


Residuo 


1 1 
0 100 200 300 400 
Valor ajustado 


9. a) 182.52, 166.55, 187.56 b) 236.39, 234.18, 237.02 c) 176.80, 163.89, 180.78 
d) iv). El resultado no proporciona mucho de dónde elegir entre los modelos de dos variables. En el modelo de tres va- 
riables, ninguno de los coeficientes es significativamente diferente de O, aun cuando fueron significativos en los mo- 
delos de dos variables. Esto sugiere colinealidad. 
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11. a) A continuación se presentan los valores de SSE y sus grados de libertad para modelos de grados 1, 2, 3 y 4. 


b) 


13. a) 


Lineal 18 2726.55 
Cuadrático 17 481.90 
Cúbico 16 115.23 
Cuártico 15 111.78 


(2726.55 — 481.90)/(18 — 17) 


Para comparar cuadrático contra lineal, F; 1, = = 79.185, P =0. 
481.90/17 
481.90 — 115.2 17-1 
Para comparar cúbico contra cuadrático, F, ¡4 = acia a $ = 50.913, P =0. 
115.23/16 
115.23 — 111.78)/(16 — 15 
Para comparar cuártico contra cúbico, FF, ¡s = ( mí o ) = 0.463, P > 0.10. 


El modelo cúbico se selecciona con este procedimiento. 
El modelo cúbico es y = 27.937 + 0.48749x + 0.85104x1? —0.057254x”. La estimación y se maximiza cuando dy/dx 
= 0. dy/dx = 0.48749 + 1.70208x — 0.171762x?. Por tanto, x = 10.188. 


Sea y, el tiempo de vida de la pintura del patrocinador, y, es el tiempo de vida de la pintura del competidor, x, es la 
temperatura en enero, x, es la temperatura en julio, x3 es la precipitación. Entonces un buen modelo para y, es y; = 
4.2342 + 0.79037x, + 0.20554x, — 0.082363x, — 0.0079983x,x, — 0.0018349x%. Un buen modelo para y, es y, 
= 6.8544 + 0.58898x, + 0.054759x, — 0.15058x, — 0.0046519x,x, + 0.0019029x,x, — 0.0035069x%. 


b) $, = 13.83, 9, = 13.90. 


15. a) 


b) 


c) 


Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.25317 0.0065217 38.819 0.000 
Xx -0.041561 0.040281 1.0318 0.320 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.21995 0.0038434 57.23 0.000 
Xx 0.58931 0.06146 9.5886 0.000 
xs 2.2679 0.2155 10.524 0.000 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.22514 0.0068959 32.648 0.000 
x 0.41105 0.20576 1.9977 0.069 
x? —0.74651 1.6887 —0.44206 0.666 


Ñe 3.6728 4.043 -0.90843 0.382 


d) 


e) 


f) 


17. a) 


b 


= 
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Desviación 
Pronosticador Coeficiente estándar T P 
Constante 0.23152 0.013498 17.152 0.000 
x 0.10911 0.58342 0.18702 0.855 
e 3.4544 7.7602 0.44515 0.665 
Pad 26.022 40.45 -0.64333 0.533 
x? 40.157 72.293 0.55548 0.590 
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El modelo cuadrático. El coeficiente de x* en el modelo cúbico no es significativamente diferente de O. No hay nin- 
gún coeficiente de x* en el modelo cuártico. 


0.258 
Desviación 

Pronosticador Coeficiente estándar T P 
Constante —0.093765 0.092621 -1.0123 0.335 
XxX 0.63318 2.2088 0.28666 0.780 
XxX 2.5095 0.30151 8.3233 0.000 
e 5.318 8.2231 0.64672 0.532 
xo 0.3214 0.17396 1.8475 0.094 
X¡X> 0.15209 1.5778 0.09639 0.925 

Análisis de varianza 

Fuente GL sc MC F 

Regresión 5 20.349 4.0698 894.19 0.000 

Error de residuos 10 0.045513  0.0045513 


Total 


15 20.394 


A 7 2 4 7 e % 
El modelo que contiene las variables x,, x, y x5 es bueno. A continuación se presentan los coeficientes junto con sus 


desviaciones estándar, y enseguida la tabla del análisis de varianza. 


Desviación 
Pronosticador Coeficiente estándar T P 
Constante -0.088618 0.068181 1.2997 0.218 
XxX 2.1282 0.30057 7.0805 0.000 
Xa 2.4079 0.13985 17.218 0.000 
x —0.27994 0.059211 A.7279 0.000 
Análisis de varianza 
Fuente GL sc MC F P 
Regresión 3 20.346 6.782 1683.9 0.000 
Error de residuos 12 0.048329 0.0040275 


Total 


15 20.394 
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19. 


21. 


23. 
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El estadístico F para comparar este modelo con el modelo cuadrático completo es 


210= — ara p2=101 = 0.309, P > 0.10, por lo que es razonable eliminar x% y x,x, del modelo 


cuadrático completo. Todos los coeficientes restantes son significativamente diferentes de O, por lo que no sería ra- 
zonable reducir más el modelo. 


c) El modelo con el mejor iS ajustado contiene las variables x,, % y 1 Este modelo también es el modelo con el va- 
lor mínimo de Mallows C, (2.2). Éste no es el mejor modelo, ya que contiene a 0 pero no x¡. El modelo que con- 
tiene xj, X2 y x, sugerido en la respuesta del inciso b), es mejor. Observe que el iS ajustado para el modelo en el 
inciso b) es 0.99704, que casi no difiere del modelo con el máximo valor de R? ajustado. 


a) DE 
Desviación 
Pronosticador Coeficiente estándar T P 
Constante 1.1623 0.17042 6.8201 0.006 
t 0.059718 0.0088901 6.7174 0.007 
? —0.00027482 0.000069662 3.9450 0.029 
b) 17.68 minutos c) (0.0314, 0.0880) d) La tasa de reacción disminuye con el tiempo si f, < 0. Por tanto, 


se prueba H, : B> = 0 contra H, : fB, < 0. El estadístico de prueba es 13 = 3.945, P = 0.029/2 = 0.0145. Es razonable 
concluir que la tasa de reacción disminuye con el tiempo. 


y = Bo+ Bix + Bax2 + P3x1x2 + €. 


a) El modelo de 17 variables que contiene las variables independientes X¡, X2, X3, Xg, X7, Xg> Xo, X11> X13 X 145 X16> X18» X19» 
Xa0 X21> X2o Y Xo3 tiene un r ajustado igual a 0.98446. El modelo ajustado es 
y = —-1569.8 — 24.909x, + 196.95x2 + 8.8669x3 — 2.2359x5 — 0.077581x7 + 0.057329xg 
— 1.3057xy — 12.227x ¡1 + 44.143x,3 + 4.1883x14 + 0.97071x16 + 74.775x1g 
+21.656x19 — 18.253 x2p + 82.591x21 — 37.553x7, + 329.8x,3 


b) El modelo de ocho variables que contiene las variables independientes xy, X2, X5, Xg, X10, X11> X14, Y Y, tiene un C, 
de Mallows igual a 1.7. El modelo ajustado es 


y = 665.98 — 24.782x, + 76.499x, + 121.96x5 + 0.024247xg + 20.4x10 — 7.1313x,1 + 2.4466x14 + 47.851», 


c) Utilizando un valor de 0.15 tanto para Q que se introduce como para Q que se elimina, la ecuación elegida para la 
regresión paso a paso es y = —927.72 + 142.40xs + 0.081701x, + 21.698x¡0 + 0.41270x¡5 + 45.672x>1. 


d) El siguiente modelo de 13 variables tiene un R? ajustado igual a 0.95402. (También hay modelos de 12 variables cu- 
yo a ajustado es sólo ligeramente menor.) 


z = 8663.2 — 313.31x3 — 14.46x5 + 0.358x7 — 0.078746xg + 13.998x3 + 230.24x¡0 
— 188.16x,3 + 5.4133x14 + 1928.2x15 — 8.2533x16 + 294.94x19 + 129.79x2, — 3020.7x23 
e) El modelo de dos variables z = —1660.9 + 0.67152x, + 134.28x,g tiene un C,, de Mallows igual a —4.0. 


f) Utilizando un valor de 0.15 tanto para Q que se introduce como para 0 que se elimina, la ecuación elegida por la re- 


gresión paso a paso es z = —1660.9 + 0.67152x, + 134.28x,p 
g) El siguiente modelo de 17 variables tiene un a ajustado igual a 0.97783. 


w = 700.56 — 21.701x, — 20.000x3 + 21.813x, + 62.599x; + 0.016156x; 
— 0.012689x; + 1.1315xy + 15.245x10 + 1.1103x,1 — 20.523x¡3 — 90.189x,5 
— 0,.77442x 16 + 7.5559x19 + 5.9163 x2p — 7.5497x21 + 12.994x7, — 271.32x33 
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h) El siguiente modelo de 13 variables tiene un C, de Mallows igual a 8.0. 
w = 567.06 — 23.582x, — 16.766x3 + 90.482x; + 0.0082274x7 — 0.011004xg + 0.89554x9 
+ 12.131x10 — 11.984x13 — 0.67302x16 + 11.097x19 + 4.6448x20 + 11.108x2, — 217.82x3 
i) Utilizando un valor de 0.15 tanto para Q que se introduce como para 0 que se elimina, la ecuación elegida por la re- 


gresión paso a paso es w = 130.92 — 28.085x, + 113.49x, + 0.16802xy — 0.20216x,¡¿ + 11.417x¡9 + 12.068x,, — 
78.371x>3. 


Sección 9.1 

LA AAA A AAA 
Fuente GL Sc MC F P 
Duración 4 1.3280 0.33200 7.1143 0.002 
Error 15 0.7000 0.046667 
Total 19 2.0280 


11. 


. a) 


b) Sí. Fa 15 = 7.1143, 0.001 < P < 0.01 (P = 0.002). 


a, ——á TT ————————— 
Fuente GL sc MC F P 
Tratamiento 4 19.009 4.7522 2.3604 0.117 
Error 11 22.147 2.0133 

Total 15 41.155 


b) No. Fa 1, = 2.3604, P. > 0.10 (P = 0.117). 


DA A 
Fuente GL sc MC F P 
Lugar 3 1.4498 0.48327 2.1183 0.111 
Error 47 10.723 0.22815 
Total 50 12.173 


b) No. Fi 47 = 2.1183, P > 0.10 (P = 0.111). 


Fuente GL SC MC F P 


Catalizador 2 61.960 30.980 5.9926 0.037 
Error 6 31.019 5.1698 
Total 8 92.979 


b) Sí. F, ¿= 5.9926, 0.01 < P < 0.05 (P = 0.037). 


. No, Fy ¡5 = 15.8255, P< 0.001 (P = 4.8 x 1075). 


a, - o —_——— A 
Fuente GL sc MC F P 
Temperatura 3 58.650 19.550 8.4914 0.001 
Error 16 36.837 2.3023 

Total 19 95.487 
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b) 
13. a) 
15. a) 


b) 
17. a) 
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Sí. F3 16 = 8.4914, 0.001 < P < 0.01 (P = 0.0013). 
s =1.517 b) 18 c) 38 


Fuente  GL sc MC F P 


Grado 3 17214 573.81 9.4431 0.000 
Error 906  5833.4 60.765 
Total 99  7554.9 


Sí. F, 95 = 9.4431, P< 0.001 (P = 0). 


0.85 b) 56 c) 200 d) Mayor que 0.864138. Entre mayor sea la diferencia, mayor será la probabi- 


lidad de detectarla. 


Sección 9.2 


1. a) 
b) 


Le 


pd 


b) 


c) 


b) 


€ 


7. a) 


pa 


Sí. Fs ¿= 46.64, P=0. 


6. 6..0s = 3.63. El valor de MSE es 0.00508. El valor crítico al 5% es, por tanto, 5.63./0.00508/2 = 0.284. Cual- 
quier par que difiera en más de 0.284 se puede concluir que es diferente. Los siguientes pares satisfacen este crite- 
rio: AyB,AyC,AyD,AyE,ByC,ByD,ByE,ByEDyHF 

tó. 005sns = 4.698 (el valor obtenido por interpolación es 4.958). El valor de MSE es 0.00508. El valor crítico al 5% 
es, por tanto, 4.698 /2(0.00508)/2 = 0.335. Cualquier par que difiera en más de 0.335 se puede concluir que es di- 
ferente. Los siguientes pares satisfacen este criterio: Ay B, AyC,AyD,AyE,ByC,ByD,ByE,ByEDyHEF. 
El método de Tukey-Kramer es más poderoso, ya que su valor crítico es más pequeño (0.284 contra 0.335). 

Sea el método de Tukey-Kramer o el método de Bonferroni, ambos se pueden utilizar. 

MSE = 2.9659, J, = 12 para toda ¡. Hay siete comparaciones que deben hacerse. Ahora tgg. 02517 = 2.794, por lo que 
el valor crítico al 5% es 2.754/2.9659(1/12 + 1/12) = 1.936. Todas las medias muestrales de las formulaciones 


no controladas difieren de la media muestral de las formulaciones controladas en más de esta cantidad. Por tanto, se 
concluye que al nivel de 5% todas las formulaciones no controladas difieren de la formulación controlada. 


Hay siete comparaciones que deben hacerse. Se debe utilizar el valor de rango de Student q, gg, os Este valor no está 
en la tabla, por lo que se usará 97, 60, os = 4.31, que es un poco mayor. El valor crítico al 5% es 4.31//2.9659/12 = 
2.14. Todas las formulaciones no controladas difieren de la media muestral de la formulación controlada en más de 
esta cantidad. Por tanto, se concluye que al nivel de 5% todas las formulaciones no controladas difieren de la for- 
mulación controlada. 


El método de Bonferroni es más poderoso, porque está basado en el número real de comparaciones que deben ha- 
cerse, que es siete. El método de Tukey-Kramer está basado en el número mayor de comparaciones que se pudieran 
hacer, que es (71(8)/2 = 28. 


t16..025/6 — 3.0083 (el valor obtenido por interpolación es 3.080). El valor de MSE es 2.3023. Por tanto, el valor crí- 
tico al 5% es 3.0083,/2(2.3023)/5 = 2.8869. Se puede concluir que la media para 7509C difiere de las medias pa- 
ra 850*C y 900*C, y que la media para 800*C difiere de la media para 900*C. 


a. 16,05 = 4.05. El valor de MSE es 2.3023. Por tanto, el valor crítico al 5% es 4.05./2.3023/5 = 2.75. Se puede 
concluir que la media para 750*C difiere de las medias para 850%C y 900*C, y que la media para 800*C difiere de 
la media para 900*C. 


El método de Tukey-Kramer es más poderoso, porque su valor crítico es menor. 
tr6. 02513 = 2.6730 (el valor obtenido por interpolación es 2.696). El valor de MSE es 2.3023. Por tanto, el valor crí- 


tico al 5% es 2.6730//2(2.3023)/5 = 2.5651. Se puede concluir que la media para 900€ difiere de las medias pa- 
ra 750%C y 800*C. 


11. 


13. 


15. 
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D) 94.16.05 = 4.05. El valor de MSE es 2.3023. Por tanto, el valor crítico al 5% es 4.05/2.3023/5 = 2.75. Se puede 
concluir que la media para 900*C difiere de las medias para 750”C y 800*C. 


c) El método de Bonferroni es más poderoso, porque su valor crítico es menor. 


a) ta. 05 = 2.012, MSE = 0.22815, los tamaños de la muestra son 16 y 9. Las medias de la muestra son X, = 1.255625, 
X, = 1.756667. El intervalo de confianza del 95% es 0.501042 + 2.012,//0.22815(1/16 + 1/9), 0 (0.1006, 0.9015). 


b) Los tamaños de la muestra son J, = 16, J, = 9, Jz = 14, J,¿ = 12. MSE = 0.22815. Se debe usar el valor del rango 
de Student qa 47. os: Este valor no está en la tabla, por lo que se usará 94 40, 05 = 3.79, que es sólo un poco mayor. 
Los valores de 94.40,.05 al (MSE/2)(1/J, + 1/J;) se presentan en la siguiente tabla de la izquierda y los valores de 


las diferencias |X, — X; | se presentan en la tabla de la derecha. 


1 2 3 4 | 1 2 3 + 
1 = 0.53336 0.46846 0.48884 110 0.50104 0.16223 0.18354 
2 | 0.53336 — 0.54691  0.56446 2 |0.50104 0 0.33881 0.3175 
3 | 0.46846 0.54691 = 0.50358 3|0.16223 0.33881 0 0.02131 
4 |0.48884 0.56446 0.50358 4 |0.18354 0.31750 0.02131 0 


Ninguna de las diferencias excede su valor crítico, por lo que cualquiera de las medias de tratamiento difiere. 


a) tz 025 = 2.306, MSE = 1.3718. Las medias muestrales son X, = 1.998 y X, = 5.300. Los tamaños de las muestras son 
J, = 5 y J¿ = 3. Por tanto, el intervalo de confianza del 95% es 3.302 + 2.306/1.3718(1/5 + 1/3), o (1.330, 5.274). 

b) Las medias muestrales son X, = 1.998, X, = 3.0000, X, = 5.300. Los tamaños de la muestra son J, = 5,J, = J, = 
3. El punto superior al 5% del rango de Student es 9z g, 95 = 4.04. El valor crítico para [X, — X,| y para |X, — Xy] 
es 4.04//(1.3718/2(1/5 + 1/3) = 2.44, y el valor crítico al 5% para |X2— X3] es 4.04/(1.3718/21(1/3 + 1/3) = 
2.73. Por tanto, las medias 1 y 3 difieren al nivel de 5%. 


a) MSTr = 19.554 por lo que F = 19.554/3.85 = 5.08. Hay 3 y 16 grados de libertad, por lo que 0.01 <P < 0.05. La 
hipótesis nula de no diferencia se rechaza al nivel de 5%. 


D) da 16. 05 = 4.05, por lo que el catalizador cuyas medias difieren en más de 4.05./3.85/5 = 3.55 son significativa- 
mente diferentes al nivel de 5%. Los dos catalizadores 1 y 2 difieren significativamente del catalizador 4. 


Cualquier valor de MSE satisface 5.099 < MSE < 6.035. 


Sección 9.3 
La 3 b 2 o.6 d) 24 


% Fuente  GL SC MC F P 
Aceite 3 1.0926 0.36420 5.1314 0.007 
Anillo 2 0.9340 0.46700 6.5798 0.005 
Interacción 6 0.2485 0.041417 0.58354 0.740 
Error 24 1.7034 0.070975 
Total 35 3.9785 


/) SÍ. Fó 74 = 0.58354, P > 0.10 (P = 0.740). 

g) No, algunos de los efectos principales del tipo de aceite son diferentes de cero. F3 24 = 5.1314, 0.001 <P < 0.01 
(P = 0.007). 

h) No, algunos de los efectos principales del tipo de anillo son diferentes de cero. F, 24 = 6.5798, 0.001 < P < 0.01 
(P = 0.005). 
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“0 mente GL. Sc MC F P 
Temperatura molde 4 69738 174345 6.7724 0.000 
Aleación 2 8958 44790 1.7399 0.187 
Interacción 8 7275 909.38 0.35325 0.939 
Error 45 115845  2574.3 
Total 59 201816 


b) Sí. Fg 45 = 0.35325, P > 0.10(P = 0.939). 


c) No, algunos de los principales efectos de la temperatura de molde son distintos de cero. F, 45 = 6.7724, P < 0.001 
(P=0). 
d) Sí. F3 45 = 1.7399, P > 0.10, (P = 0.187). 


Interacciones 


Efectos principales Efectos principales Temperatura 

de la solución de la temperatura Solución 25C 37C 
NaCl 9.1148 2 1.8101 NaCl -0.49983 0.49983 
Na,HPO, 9.1148 37C -1.8101 Na2HPO, 0.49983 —0.49983 


b) Fuente GL sc MC F P 


Solución 1  1993.9 1 993.9 5.1983 0.034 
Temperatura 1 78.634 78.634 — 0.20500 0.656 


Interacción 1 5.9960 5.9960 0.015632 0.902 
Error 20 7671.4 383.57 
Total 23 9750.0 


c) Sí. F; 79 = 0.015632, P > 0.10 (P = 0.902). 


d) Sí, puesto que el modelo aditivo es creíble. La media de la tensión producida difiere entre Na,HPO, y NaCl: F¡ 20 = 
5.1983, 0.01 <P < 0.05 (P = 0.034). 


e) No hay evidencia de que la temperatura afecte la tensión producida: F, 7y = 0.20500, P > 0.10 (P = 0.656). 


——IáKáKáKÉáKÉKÉKÉÁ y A OOASKáÁ Interacciones 
Efectos principales Efectos principales 


b) 


del peso del ácido láurico Fracción= 10 Fracción= 30 

15 1.9125 10 2.8375 Peso = 15 3.9125 3.9125 
25 1.9125 30 2.8375 Peso = 25 3.9125 3.9125 

Fuente GL sc MC F P 

Peso 1 29.261 29.261 7.4432 0.053 

Acido láurico 1 64.411 64.411 16.384 0.016 

Interacción 1 122.46 122.46 31.151 0.005 

Error 4 15.725 3.9312 

Total 7 231.86 


c) No. F¡ ¿= 31.151, 0.001 < P < 0.01 (P = 0.005). 
d) No, debido a que el modelo aditivo es rechazado. 


e) No, debido a que el modelo aditivo es rechazado. 


11. 


. a) 


b) 


c) 
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A, Interacciones 
Efectos principales 


Efectos principales del largo Largo 
del material Corto -0.018533. Corto Medio Largo 
CPTi-ZrO, 0.044367 Medio  -0.024833 CPTi-ZrO, 0.0063333 -—0.023767  0.017433 


Aleación Ti-ZrO, -0.044367 Largo 0.043367 Aleación Ti-ZrO, 0.0063333  0.023767 -—0.017433 


Fuente GL sc MC F P 


Material del cono 1 0.059052  0.059052 23.630 0.000 
Longitud 2 0.028408 — 0.014204 5.6840 0.010 
Interacción 2 0.0090089 0.0045444 1.8185 0.184 
Error 24 0.059976  0.002499 

Total 29 0.15652 


Sí, puede ser creíble que las interacciones sean iguales a 0. El valor del estadístico de prueba es 1.8185, su distribu- 
ción nula es F» 24 y P > 0.10 (P = 0.184). 


d) Sí, debido a que el modelo aditivo es creíble. La media del coeficiente de fricción difiere entre CPTi-ZrO, y Aleación 


e) 


b) 


c) 


Ti-ZrO,: F;, 24 = 23.630, P < 0.001. 


Sí, debido a que el modelo aditivo es creíble. La media del coeficiente de fricción no es la misma para todas los lar- 
gos: F, 24 = 5.6840, P = 0.01. Para determinar qué pares de efectos difieren, se utiliza 93 24 05 = 3.53. Se calcula 
3.53,/0.002499/10 = 0.056. Se concluye que el efecto de la longitud del largo difiere de las longitudes cortas y 
medianas, pero no se puede concluir que los efectos de las longitudes cortas y medianas difieren entre sí. 


Interacciones 


Efectos principales Efectos principales del Cociente de entrega 
de la concentración cociente de entrega Concentración  1:1 1:5 1:10 
15 0.16667 11 0.73333 15 0.66778  -—0.30222  -0.36556 
40  -—0.067778 1:5 —0.30000 40 -0.20111  —0.064444  0.26556 
100 -0.098889 1:10 -0.43333 100 -0.46667 0.36667 0.10000 
Fuente DL sc MC F P 
Concentración 2  0.37936 0.18968 3.8736 0.040 
Cociente de entrega 2 7.34 3.67 74.949 0.000 
Interacción 4 3,4447 0.86118 17.587 0.000 
Error 18 0.8814  0.048967 
Total 26 12.045 
No. El valor del estadístico de prueba es 17.587, su distribución nula es F, ¡g, y P = 0. 
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d) 


Concentración = 15 


al 


s 
e 


Las pendientes de los segmentos de la recta son bas- 
, 


tantes diferentes entre sí, lo que indica el alto grado de 
interacción. 


e 
—_ Concentración = 100 


Absorción (%) 
hn 
T 


Concentración = 4 


0.5L 
0 | | | 
1:1 15 1:10 
Cociente de entrega 
éáiXO__ Interacciones 
Ba ——_—_—_—_—_—__— Efectos principales . 
Efectos principales de la longitud Longitud 
del sistema de unión Sistema de unión Un cuarto La mitad Completo 
Un cuarto —7.1165 
Clavo 1.3832 La mitad 2.5665 Clavo 0.48317 0.33167 -0.51633 
Adhesivo 1.3832 Completo 9.683 Adhesivo -0.48317  -—0.33167 0.51633 
d¿$-> HAAAAAAAAAAAAA<A<«<«<«<«<«<«<«<<<«<«—a—o—— 
Fuente GL sc MC F P 
Sistema de unión 1 114.79 114.79 57.773 0.000 
Longitud 2 30198  1509.9 759.94 0.000 
Interacción 2 10.023 5.0115 2.5223 0.090 
Error 54 107.29 1.9869 
Total 59  3251.9 


15. 


c) El modelo aditivo es apenas creíble: F, 54 = 2.5223, 0.05 <P < 0.10 (P = 0.090). 
d) Sí, el método del sistema de unión afecta la carga crítica de doblaje: F, 54 = 57.773, P = 0. 
e) Sí, el miembro de lado afecta la carga crítica de doblaje: F» 54 = 759.94, P = 0. Para determinar cuál de los efectos 


difiere a un nivel de 5% se usaría 93, 54, os- Este valor no se encuentra en la tabla A.8, por lo que se aproxima a éste 


con 43, 40..05 = 3.44. Se calcula 3.44,/1.9869/20 = 1.08. Se concluye que los efectos de un cuarto, la mitad y com- 
pleto difieren entre sí 


a - -_————_ A AAA 
' Fuente GL sc MC F P 
Placa 2 114 661.4 57 330.7 11 340.1 0.000 
Operador 2 136.78 68.389 13.53 0.002 
Interacción 4 6.5556 1.6389 0.32 0.855 
Error 9 45.500 5.0556 
Total 17 114 850.3 


b) Hay diferencias entre los operadores. F, y = 13.53, 0.01 < P < 0.001(P = 0.002). 
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1 ente GL sc MC F P 
PVAL 2 125.41 62.704 8.2424 0.003 
DCM 2 1 647.9 823.94 108.31 0.000 
Interacción 4 159.96 39.990 5.2567 0.006 
Error 18 136.94 7.6075 
Total 26 2 070.2 


b) Puesto que los términos de interacción no son iguales a 0 (F, ¡g = 5.2567, P = 0.006), no se pueden interpretar los 
efectos principales. Por tanto, se calculan las medias de las celdas. Éstas son 


DCM (ml) 

PVAL 50 40 30 
0.5 97.8 92.7 74.2 
1.0 93,3 80.8 75.4 
2.0 94.2 88.6 78.8 


Se concluye que un nivel DCM de 50 ml produce mayor eficiencia de encapsulación que en los otros niveles. Si DOCM 
= 50, la concentración PVAL no tiene mucho efecto. Observe que para DCM = 50, la eficiencia de encapsulación se 
maximiza en la menor concentración PVAL, pero para DCM = 30 se maximiza a la mayor concentración PVAL. Ésta 


es la fuente de la interacción significativa. 


Sección 9.4 
1. a) El abono es el factor bloqueado, la tierra es el factor de tratamiento. 


O 
Fuente GL SC MC F P 


Tierra 3 1.178 0.39267 18.335 0.000 
Bloque 4 5.047 1.2617 58.914 0.000 
Error 12 0.257 0.021417 

Total 19 6.482 


Cc) Sí, Fy 1, = 18.335, P = 0. 
d) 44. 12. 05 = 4.20, MSAB = 0.021417 y J = 5. Por tanto, el valor crítico de 5% es 4.20./0.021417/5 = 0.275. Las 
medias muestrales son X, = 6.32, Xy = 6.02, X. = 6.28, X, = 6.70. Por tanto, se puede concluir que D difiere de A, 


B y C, y que A difiere de B. 


3. a, —————————————————__——————__— 
Fuente GL SC MC F P 


Concentración 2 756.7 378.35 5.0185 0.015 


Bloque 3 504.7 168.23 2.2315 0.110 
Interacción 6 415.3 69.217 0.91809 0.499 
Error 24 18094 75.392 

Total 35 3486.1 


b) Sí. El P-valor para la interacción es grande (0.499). 


c) Sí. El P-valor para la concentración es pequeño (0.015). 
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Fuente GL sc MC F P 


Variedad 9 339 032 37 670 2.5677 0.018 
Bloque 5 1860838 372168 25.367 0.000 
Error 45 660 198 14 671 

Total 59 2860 069 


b) Sí, Fo as = 2.5677, P = 0.018. 


1-0 Fuente GL SC MC F P 
Centrales de abastecimiento 
de agua 3 1253.5 417.84 4.8953 0.005 
Bloque 14 1006.1 71.864 0.84193 0.622 
Error 42 3585.0 85.356 
Total 59 5844.6 
b) Sí, F3 4 = 4.8953, P = 0.005. c) Para determinar cuáles efectos difieren al 5%, se debe usar 94 42 05. Este valor 
no se encuentra en la tabla A.8, por lo que se aproxima con 44 40. 05 = 3.79. El valor crítico del 5% es 


3.79,/85.356/15 = 9.04. Las medias muestrales son X, = 34.000, Xy = 22.933, X. = 24.800, X, = 31.467. Se puede 
concluir que A difiere tanto de B como de C. 


d) El P-valor para el factor bloqueado es grande (0.622), lo que sugiere que el factor bloqueado (tiempo) tiene sólo un 
efecto pequeño en el resultado. Por tanto, podría ser razonable despreciar al factor bloqueado y realizar un ANOVA 
de un sentido. 


9. a) Un motor de cada tipo se deberá probar cada día. El orden con el cual se probarán en un día dado debe ser aleato- 
rio. Este es un diseño de bloques aleatorios, en el cual los días son los bloques. Este no es un diseño completamen- 
te aleatorio, ya que la aleatorización ocurre sólo dentro de los bloques. 


NN A, — Xy 
ja iy E XX 9/12 


b) El estadístico de prueba es 


Sección 9.5 
1. 


> 
w 
la] 
[u] 


Los pares de seudónimos son (A, BCD), [B, ACDj, [C, ABD), [D, ABC), [AB, CD], (AC, 
BD) y fAD, BC) 


Is 
l 
A e 


a 
a 
IS E | 


++! 
HE +H+ 1 


5. 


. a) 
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Suma de Media 
Variable Efecto GL cuadrados cuadrática F P 
A 23.0000 1 2 116.0000 2 116.0000 264.5000 0.000 
B 5.0000 1 100.0000 100.0000 12.5000 0.008 
C 1.5000 1 9.0000 9.0000 1.1250 0.320 
AB 7.5000 1 225.0000 225.0000 28.1250 0.001 
AC 3.0000 1 36.0000 36.0000 4.5000 0.067 
BC 0.0000 1 0.0000 0.0000 0.0000 1.000 
ABC 0.5000 1 1.0000 1.0000 0.1250 0.733 
Error 8 64.0000 8.0000 
Total 15 2 551.0000 
b) Los efectos principales A y B y la interacción AB son más importantes. La interacción AC es frontera. 
c) La media de la producción es mayor cuando la temperatura es 180%C. 
a) - 
Variable Efecto 
A 3.3750 
B 23.625 
C 1.1250 
AB 2.8750 
AC 1.3750 
BC 1.6250 
ABC 1.8750 


b) No, puesto que el diseño es sin réplica, no hay suma de cuadrados del error. 


c) No, ninguno de los términos de interacción son casi tan grandes como el efecto principal del factor B. 


d) Si el modelo aditivo se sabe que vale, entonces la siguiente tabla ANOVA muestra que los efectos principales de B 
no es igual a O, mientras que los efectos principales de A y C podría ser igual a 0. 


Suma de Media 
Variable Efecto GL cuadrados cuadrática F P 
A 3.3750 1 22.781 22.781 2.7931 0.170 
B 23.625 1 1 116.3 1 116.3 136.86 0.000 
C 1.1250 1 2.5312 2.5312 0.31034 0.607 
Error 4 32.625 8.1562 
Total 7 1 174.2 
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658) Variable Efecto 
A 2.445 
B 0.140 
€ 0.250 
AB 1.450 
AC 0.610 
BC 0.645 


ABC 0.935 


b) No, debido a que el diseño es sin réplica, no hay suma de los cuadrados del error. 


0.999 - 

0.99 L- 

0.95 F 

0.9F 

0.75 Pp 

0.5 Pp 

Las estimaciones se encuentran cerca de una recta, por o09sL . 
lo que ninguno de los factores se puede decir obviamen- > 


E E A 0.1F 
te que influya en la resistencia. o0sP * 


0.01 p 


€ 


pu 


0.001 P 
] ! ] 


=1 0 1 
Efecto 


9. a) Variable Efecto 
A 1.2 
B 3.25 
C -16.05 
D 2.55 
AB 2 
AC 2.9 
AD -1.2 
BC 1.05 
BD 1.45 
CD -1.6 
ABC —0.8 
ABD -1.9 
ACD 0.15 
BCD 0.8 
ABCD 0.65 


b) El factor C es el único que realmente se distingue. 


11. 


13. 
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al Suma de Media 
Variable Efecto GL cuadrados cuadrática F P 
A 14.245 1 811.68 811.68 691.2 0.000 
B 8.0275 1 257.76 257.76 219.5 0.000 
C 6.385 1 163.07 163.07 138.87 0.000 
AB 1.68 1 11.29 11.29 9.6139 0.015 
AC 1.1175 1 4.9952 4.9952 4.2538 0.073 
BC 0.535 1 1.1449 1.1449 0.97496 0.352 
ABC 1.2175 1 5.9292 5.9292 5.0492 0.055 
Error 8 9.3944 1.1743 
Total 15 1 265.3 
b) Todos los efectos principales son significativos, así como la interacción AB. Únicamente la interacción BC tiene un 
P-valor que es razonablemente grande. Los tres factores parecen importantes, y parecen interaccionar considerable- 
mente entre sí. 
il) 


Ejercicios adicionales para el capítulo 9 


1. 


Fuente GL sc MC F P 


Yeso 3 0.013092 0.0043639 0.28916 0.832 
Error 8 0.12073 —0.015092 
Total 11 0.13383 


El valor del estadístico es F; ¿ = 0.28916; P > 0.10(P = 0.832). No hay evidencia de que el pH difiera con la canti- 
dad de yeso agregado. 


Fuente GL sc MC F P 


Día 2 10908 0.54538 2235 0.000 
Error 36  0.87846  0.024402 
Total 38 1.9692 


Se puede concluir que la media del contenido del azúcar entre los tres días (F) 35 = 22.35, P = 0). 


a) No. Las varianzas no son constantes a través de los grupos. En particular, hay un dato atípico en el grupo 1. 


b) No, por las mismas razones que en el inciso a). 


E  -- _=-=-_-_-__ _-_= 
Fuente GL sc MC F P 
Grupo 4 5.2029 1.3007 8.9126 0.000 
Error 35 5.1080  0.14594 

Total 39 10.311 


Se concluye que la media de los tiempos de disolución difiere entre los grupos (F, 35 = 8.9126, P = 0). 


La recomendación no es buena. El ingeniero está tratando de interpretar los efectos principales sin considerar las inter- 
acciones. El P-valor pequeño para las interacciones indica que se deben considerar. Observando las medias de la celda, 
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es obvio que si se usa el diseño 2, entonces el material menos costoso se desarrolla igual de bien que el material más 
costoso. Por tanto, la mejor recomendación es utilizar el diseño 2 con el material menos costoso. 


9. a) 


Fuente GL sc MC F P 
Base 3 13495 44983 7.5307 0.000 
Instrumento 2 90990 45 495 76.164 0.000 
Interacción 6 12050 2008.3 3.3622 0.003 
Error 708 422912 597.33 

Total 719 539 447 


b) No, esto no es adecuado debido a que hay interacciones entre los efectos renglón y columna (F5 703 = 3.3622, P = 
0.003). 


11. a) Sí, Fy 15 = 8.7139, P = 0.001. b) ds. 29 = 4.23, MSE = 29.026, J = 4. Por tanto, el valor crítico 5% es 
4.23,/29.026/4 = 11.39. Las medias muestrales para los cinco canales son X, = 44.000, X, = 44.100, X, = 30.900, 
Xy = 28.575, X¿ = 44.425. Por tanto, podemos concluir que los canales 3 y 4 difieren de los canales 1, 2 y 5. 


13. 


15. 


17. 


No, Fa, 289 = 1.5974, P > 0.10(P = 0.175). 


a) s = 5.388 b) 10 c) 22 

a) Variable Efecto Variable Efecto Variable Efecto Variable Efecto 
A 3.9875 AB 0.1125 BD 0.0875 ACD 0.4875 
B 2.0375 AC 0.0125 CD 0.6375 BCD 0.3125 
C 1.7125 AD 0.9375 ABC 0.2375 ABCD 0.7125 
D 3.7125 BC 0.7125 ABD 0.5125 


b) Los efectos principales son notablemente mayores que las interacciones, y los efectos principales para A y D son no- 


tablemente mayores que aquellos para B y C. 


Cc) 

Suma de Media 
Variable Efecto  GL cuadrados cuadrática F P 
A 3.9875 1 63.601 63.601 68.415 0.000 
B 2.0375 1 16.606 16.606 17.863 0.008 
E 1.7125 1 11.731 11.731 12.619 0.016 
D 37125 1 55.131 55.131 59.304 0.001 
AB 0.1125 1 0.050625 0.050625 0.054457 0.825 
AC 0.0125 1 0.000625 0.000625 0.00067231 0.980 
AD 0.9375 1 3.5156 3.5156 3.7818 0.109 
BC 0.7125 1 2.0306 2.0306 2.1843 0.199 
BD 0.0875 1 0.030625 0.030625 0.032943 0.863 
CD 0.6375 1 1.6256 1.6256 1.7487 0.243 
Interacción 3 4.6481 0.92963 
Total 15 158.97 


Se puede concluir que cada uno de los factores A, B, C y D tienen un efecto en el resultado. 
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d) Los estadísticos F se calculan al dividir la media cuadrática para cada efecto (igual a su suma de los cuadrados) en- 
tre el error medio cuadrático 1.04. Los grados de libertad para cada estadístico F' son 1 y 4. Los resultados se resu- 
men en la tabla siguiente. 


Suma de Media 

Variable Efecto GL cuadrados cuadrática F P 

A 3.9875 1 63.601 63.601 61.154 0.001 
B 2.0375 1 16.606 16.606 15.967 0.016 
(8 1.7125 1 11.731 11.731 11.279 0.028 
D 3.1125 1 55.131 55.131 53.01 0.002 
AB 0.1125 1 0.050625 0.050625 0.048678 0.836 
AC 0.0125 1 0.000625 0.000625 0.00060096 0.982 
AD 0.9375 1 3.5156 3.5156 3.3804 0.140 
BC 0.7125 1 2.0306 2.0306 1.9525 0.235 
BD 0.0875 1 0.030625 0.030625 0.029447 0.872 
ED 0.6375 1 1.6256 1.6256 1.5631 0.279 
ABC 0.2375 1 0.22563 0.22563 0.21695 0.666 
ABD 0.5125 1 1.0506 1.0506 1.0102 0.372 
ACD 0.4875 1 0.95063 0.95063 0.91406 0.393 
BCD 0.3125 1 0.39062 0.39062 0.3756 0.573 
ABCD 0.7125 1 2.0306 2.0306 1.9525 0.235 


e) Sí. Ninguno de los P-valores para las interacciones de tercer o más alto orden es pequeño. 


f) Se puede concluir que cada uno de los factores A, B, C y D tienen un efecto en el resultado. 
19. Sí, F, ¡7 = 9.4427, P < 0.001. 


21. d) Fuente GL sc MC F P 


H,SO, 2 457.65 228.83 8.8447 0.008 
CaCL 2 38 783 19 391 749.53 0.000 
Interacción 4 279.78 69.946 2.7036 0.099 
Error 9 232.85 25.872 

Total 17 39 753 


b) El P-valor para la interacción es 0.099. No se puede descartar el modelo aditivo. 
Cc) Sí, F, y = 8.8447, 0.001 < P < 0.01(P = 0.008). 
d) Sí, F, y = 749.53, P = 0.000. 


23. Sí, Fs ¿y = 20.302, P =0. 


Sección 10.1 
1. a) Continua b) Discreta c) Binaria d) Continua 
3. a) está en control b) tiene una capacidad alta 


5. a) Falso b) Falso c) Verdadero d) Falso 
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Sección 10.2 


1. 


11. 


13. 


a) LCL = 0, UCL = 10.931 b) LCL = 0, UCL = 4.721 c) LCL = 20.258, UCL = 27.242 
d) LCL = 20.358, UCL = 27.142 


a) LCL = 0, UCL = 0.277. La varianza está en control. 
b) LCL = 1.034, UCL = 1.186. El proceso está fuera de control por primera vez en la muestra 17. 


c) Los límites lo son 1.085, 1.135; los límites 20 son 1.0596, 1.1604. El proceso está fuera de control la primera vez 
en la muestra 8, donde dos de las tres últimas muestras están debajo del límite de control 20. 


a) 43.86 by) 12.03 c) 0.985 d) 17 
a) 0.126 b) 0.237 c) 0.582 d) 256 


a) LCL = 0.0588, UCL = 3.863. La varianza está en control. 
b) LCL = 197.292, UCL = 202.340. El proceso está en control. 
c) Los límites lar son 198.975, 200.657; los límites 20 son 198.133, 201.499. El proceso está en control. 


a) LCL = 0, UCL = 0.971. La varianza está en control. 
b) LCL = 9.147, UCL = 10.473. El proceso está en control. 


c) Los límites 1o son 9.589, 10.031; los límites 20 son 9.368, 10.252. El proceso está fuera de control por primera vez 
en la muestra 9, donde dos de las tres últimas muestras están debajo del límite de control 2c-. 


a) LCL = 0, UCL = 6.984. La varianza está fuera de control en la muestra 8. Después de eliminar esta muestra, X = 
150.166, R = 6.538, s = 2.911. Los nuevos límites para el diagrama S son O y 6.596. Ahora la varianza está en control. 


b) LCL = 145.427, UCL = 154.905. El proceso está en control. 


c) Los límites lo son 148.586, 151.746; los límites 20 son 147.007, 153.325. El proceso está en control (recuerde que 
la muestra 8 se ha eliminado). 


Sección 10.3 


1. 
3, 
5. 


7. 


La recta central es 0.0547, LCL es 0.00644, UCL es 0.1029. 
Sí, los límites 39 son 0.0254 y 0.2234. 
1v) 


Estaba fuera de control. El UCL es 45.82. 


Sección 10.4 


1. 


a) No se necesita eliminar muestras. b) 0% = (0.577)1(0.131)/3 = 0.0252 
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c) 
Diagrama CUSUM 
0.4 T T T T 
ES 
E UCL=0.101 
El 
E 
l] 
2 
E LCL==0,101 
2] 
Un 
0.4 | | | ] 
0 5 10 15 20 
Número de muestra 
d) El proceso está fuera de control en la muestra 8. e) Las reglas de Western Electric especifican que el proceso 


está fuera de control en la muestra 8. 


3. a) Noes necesario eliminar muestras. b) 07 = (0.577(1.14)/3 = 0.219 
c) 


Diagrama CUSUM 
3 T T T T T T 


UCL = 0.877 


LCL = —0.877 


Suma acumulativa 


3 | | | | | 
0 3 10 15 20 2 30 
Número de muestra 
d) El proceso está fuera de control en la muestra 9. e) Las reglas de Western Electric especifican que el proceso 


está fuera de control en la muestra 9. 
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5. a) 
Diagrama CUSUM 
UCL =60 
3 
E 
Z 
>] 
E 
El 
E 
5] 
E 
E 
n 
LCL= —60 


0 10 20 30 40 
Número de muestra 


b) El proceso está en control. 


Sección 10.5 
1. a) Cir = 2.303 b) Sí. Puesto que C,x > 1, la capacidad del proceso es aceptable. 
3. a) 0.20 b) 3.071 


5. a) Hp 1 3.60 b) 0.0004 c) Probablemente. La aproximación normal quizá sea imprecisa en las colas. 


Ejercicios adicionales para el capítulo 10 
1. La recta central es 0.0596, LCL es 0.0147, UCL es 0.1045. 


3. a) LCL = 0, UCL = 0.283. La varianza está en control. 
b) LCL = 4.982, UCL = 5.208. El proceso está fuera de control en la muestra 3. 
c) Los límites lo son 5.057, 5.133; los límites 20 son 5.020, 5.170. El proceso está fuera de control por primera vez 


en la muestra 3, donde una media de la muestra está arriba del límite de control superior 30. 


5. a) No es necesario eliminar muestras. b) 97 = (1.0231(0.110)/3 = 0.0375 
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c) 
Diagrama CUSUM 
1 
0.5 p 4 
S 
ha 
3 UCL=0.15 
E 0 
o 
bs LCL = 0.15 
a 
2] 
n 
=05L sl 
=1 | | | | | | 
0 5 10 15 20 25 30 
Número de muestra 
d) El proceso no está en control en la muestra 4. e) La reglas de Western Electric especifican que el proceso es- 


tá fuera de control en la muestra 3. 


7. a) LCL = 0.0170, UCL = 0.0726. b) Muestra 12 


c) No, esta causa especial mejora el proceso. Esta debe preservarse en lugar de eliminarse. 


Apéndice B 


ño) 9 
ej. Lo 
9x dy 
2 dw 3x? 2x(4 + y)  0dw _ 3y? 2y (47 + y?) 
ax P4y. (2+yY? dy x+y (124 y)? 
d 9 
3. Á =-—senx sen y?, e 2y cos x cos y? 
Ox dy 
9 9 
4. a. ye”, ca xe” 
ox dy 
dv , dv . dv ] 
5. — =e'(cos y + senz), —=-—e'seny, —=e'cosz 
9x dy 0z 
6 dw x dw 4y dw 3z 
dx VI F4yYF32 dy vVi+4y+32. 0d yYi+47+32 
7 0z 2x Oz 2y 
ax 4+y? dy  x24y 
8 dv 2xy e e dv x +20” vd dv 1 2 ES 
.—= — ze” sen(xz) —= e” cosíxz)  —= — xe” sen(xz 
Ox  x*%y+2z dy xy+z dá IZ  x2y+z 


dv ly 3 Jy dv 9 
9, = , =5 3 /xy 
Ox x 2Vx dy AY 2 dá 


10 OZ xy cos(x? y) dz x? cos(x?y) 
ax Vsentiiy)? dy _ 2y/'sen(x?y) 
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